Meta AI introducerer SAM som grundlag for billedsegmentering

-

Meta har for nylig afsløret en kunstig intelligens-model kaldet Segment Anything Model (SAM). Dette er et program, der hurtigt kan genkende og fjerne specifikke objekter i et billede eller en video. Sammen med SAM har Meta også udgivet datasættet Segment Anything 1-Billion (SA-1B). Med dette hævder de, at det er det største segmenteringsdatasæt, der nogensinde er lavet.

Grunden til, at Meta gjorde datasættet tilgængeligt for offentligheden, var for at mindske efterspørgslen efter "opgavespecifik modelleringsekspertise, træningsberegning og tilpassede dataannoteringer til billedsegmentering". SAM-modellen siges at være bygget ved hjælp af SA-1B-datasættet, som består af 11 millioner billeder i høj opløsning og privatlivsrespekt med over 1 milliard masker.

Dens tilbud

SAM giver brugerne mulighed for at vælge objekter i et billede med blot et klik eller ved at indtaste tekst kommandoer. Lad os tage et eksempel på et foto af vilde dyr. At skrive ordet tiger ville få værktøjet til at identificere og tegne kasser omkring hver tiger på billedet. SAM genererer mange gyldige masker i tilfælde af, at der er nogen usikkerheder i det objekt, der segmenteres. Dette er en afgørende og væsentlig evne til at løse segmenteringer i den virkelige verden.

Modellen er afhængig af et transformervisionsnetværk. Dette hjælper nemt med at finde forbindelsen mellem to sekventielle stykker data, såsom ord i en sætning eller objekter i et foto. Meta afslørede også, at modellen har evnen til hurtigt at segmentere et objekt på under 50 millisekunder efter at have fået en prompt.

I tidligere segmenteringsmodeller var der to grupper af måder at tackle ethvert segmenteringsproblem på. Den første metode, interaktiv segmentering, krævede tilstedeværelsen af ​​en person for at lede processen ved gentagne gange at forfine en maske. Den anden metode kaldes automatisk segmentering. Dette kræver et betydeligt antal manuelt annoterede objekter. Det har også brug for assistance fra nødvendige computerressourcer og teknisk viden vedrørende træning af segmenteringsmodellen.

SAM er en enkelt model, der kan bære begge disse segmenteringsteknikker med lethed. Dette fjerner kravet om, at brugere skal indsamle segmenteringsdata og tilpasse en model. Kort sagt vil det hjælpe brugerne med at spare tid og kræfter. Modellens grænseflade giver også folk mulighed for nemt at få adgang til og bruge den på fleksible måder.

Ud over disse delte Meta, at de testede SAM-modellen til interaktivt at kommentere billeder, og de friske annoterede data blev derefter brugt til at opdatere SAM igen. Udviklerne opdagede dog, at afhængig af billedannotering ikke var tilstrækkelig til at producere 1 milliard maskedatasæt. Dette var en af ​​de primære årsager til, at Meta designede SA-1B-datasættet, som omfatter tre hovedprocesser.

Som nævnt ovenfor hjælper modellen annotatorer i første gear. I mellemtiden kombinerer den anden procedure automatiske og assisterede annoteringer. Dette for at øge mangfoldigheden af ​​de samlede masker. Den tredje og sidste proces i datasættet er fuldstændig automatisk maskeoprettelse, hvilket giver datasættet mulighed for at nå mere end de nødvendige 1.1 millioner segmenteringsmasker.

SAM – Yderligere anvendelser

Ifølge Meta har SAM en bred vifte af applikationer og kan bruges lige ud af boksen i nye billeddomæner. Et eksempel ville være undervandsfotografering eller cellemikroskopi uden nogen form for ekstra træning (nul-shot transfer). Virksomheden tilføjede endvidere, at modellen kunne være nyttig i strømapplikationer.

Der er andre use cases for SAM i andre felter, der kræver identifikation og segmentering af objekter i billeder. Denne applikation kan hjælpe programmører med at få et klart overblik over det visuelle indhold og tekstindhold på en webside. Meta håber, at SAM også vil vise sig nyttig i VR-domænet som at vælge et objekt baseret på en brugers blik og løfte det ind i 3D. For indholdsskabere kan modellen forbedre kreative applikationer ved at give flere muligheder som at fjerne billedsektioner til collager eller videoredigering. De udtalte også, at modellen kunne gavne mange videnskabelige undersøgelser relateret til naturlige hændelser på Jorden eller endda i rummet.

Billedkredit: Featurebilledet er leveret af Meta til pressebrug.

Var dette indlæg nyttigt?

N Aslam
N Aslam
Teknisk journalist
- Annoncering -
- Annoncering -
- Annoncering -
- Annoncering -
- Annoncering -
- Annoncering -