Meta AI introduserer SAM som grunnlag for bildesegmentering

-

Meta har nylig avduket en kunstig intelligensmodell kalt Segment Anything Model (SAM). Dette er et program som raskt kan gjenkjenne og fjerne bestemte objekter i et bilde eller en video. Sammen med SAM har Meta også gitt ut datasettet Segment Anything 1-Billion (SA-1B). Med dette hevder de at det er det største segmenteringsdatasettet som noen gang er laget.

Grunnen til at Meta gjorde datasettet tilgjengelig for allmennheten var for å redusere etterspørselen etter "oppgavespesifikk modelleringsekspertise, treningsberegning og tilpasset datakommentar for bildesegmentering". SAM-modellen sies å være bygget ved hjelp av SA-1B-datasettet, som består av 11 millioner bilder med høy oppløsning og personvern med over 1 milliard masker.

Dets tilbud

SAM lar brukere velge objekter i et bilde med bare et klikk eller ved å gå inn tekst kommandoer. La oss ta et eksempel på et bilde av ville dyr. Å skrive ordet tiger vil få verktøyet til å identifisere og tegne bokser rundt hver tiger på bildet. SAM genererer mange gyldige masker i tilfelle det er usikkerhet i objektet som segmenteres. Dette er en avgjørende og essensiell evne for å løse segmenteringer i den virkelige verden.

Modellen er avhengig av et transformatorsynsnettverk. Dette gjør det enkelt å finne forbindelsen mellom to sekvensielle datastykker, for eksempel ord i en frase eller objekter i et bilde. Meta avslørte også at modellen har muligheten til å raskt segmentere et objekt på under 50 millisekunder etter å ha fått en melding.

I tidligere segmenteringsmodeller var det to grupper av måter å takle ethvert segmenteringsproblem på. Den første metoden, interaktiv segmentering, krevde tilstedeværelsen av et individ for å lede prosessen ved å foredle en maske gjentatte ganger. Den andre metoden kalles automatisk segmentering. Dette krever et betydelig antall manuelt kommenterte objekter. Den trenger også hjelp av nødvendige dataressurser og teknisk kunnskap angående opplæring av segmenteringsmodellen.

SAM er en enkelt modell som enkelt kan bære begge disse segmenteringsteknikkene. Dette fjerner kravet til brukere om å samle segmenteringsdata og tilpasse en modell. Kort sagt, det vil hjelpe brukerne med å spare tid og krefter. Grensesnittet til modellen lar også folk enkelt få tilgang til og bruke den på fleksible måter.

I tillegg til disse, delte Meta at de testet SAM-modellen for interaktivt å kommentere bilder, og de ferske annoterte dataene ble deretter brukt til å oppdatere SAM etter tur. Utviklerne oppdaget imidlertid at avhengig av bildekommentarer ikke var tilstrekkelig til å produsere 1 milliard maskedatasettet. Dette var en av hovedgrunnene til at Meta designet SA-1B-datasettet, som inkluderer tre hovedprosesser.

Som nevnt ovenfor hjelper modellen annotatorer i første gir. I mellomtiden kombinerer den andre prosedyren automatiske og assisterte merknader. Dette for å øke mangfoldet av de innsamlede maskene. Den tredje og siste prosessen i datasettet er helt automatisk maskeoppretting, som lar datasettet nå mer enn de nødvendige 1.1 millioner segmenteringsmaskene.

SAM – Tilleggsbruk

Ifølge Meta har SAM et bredt spekter av applikasjoner og kan brukes rett ut av boksen i nye bildedomener. Et eksempel kan være undervannsfotografering eller cellemikroskopi uten noen form for ekstra trening (nullskuddsoverføring). Selskapet la videre til at modellen kan være nyttig i kraftapplikasjoner.

Det er andre brukstilfeller for SAM i andre felt som krever identifisering og segmentering av objekter i bilder. Denne applikasjonen kan hjelpe programmerere med å få en klar oversikt over det visuelle og tekstlige innholdet på en nettside. Meta håper at SAM også vil vise seg nyttig i VR-domenet som å velge et objekt basert på en brukers blikk og løfte det inn i 3D. For innholdsskapere kan modellen forbedre kreative applikasjoner ved å tilby flere alternativer som å fjerne bildeseksjoner for collager eller videoredigering. De uttalte også at modellen kan være til nytte for mange vitenskapelige studier relatert til naturlige forekomster på jorden eller til og med i verdensrommet.

Fotokreditt: Featurebildet er levert av Meta for pressebruk.

Var dette innlegget nyttig?

N Aslam
N Aslam
Teknisk journalist
- Annonsering -
- Annonsering -
- Annonsering -
- Annonsering -
- Annonsering -
- Annonsering -