Meta AI въвежда SAM като основа за сегментиране на изображения

-

Мета наскоро представи модел на изкуствен интелект, наречен Segment Anything Model (SAM). Това е програма, която може бързо да разпознае и премахне конкретни обекти в изображение или видео. Заедно със SAM, Meta пусна и набора от данни Segment Anything 1-Billion (SA-1B). С това те твърдят, че това е най-големият набор от данни за сегментиране, правен някога.

Причината, поради която Meta направи набора от данни достъпен за обществеността, беше да намали търсенето на „експертни познания за моделиране на специфични задачи, изчисления за обучение и персонализирани анотации на данни за сегментиране на изображения“. Твърди се, че моделът SAM е изграден с помощта на набор от данни SA-1B, който се състои от 11 милиона снимки с висока разделителна способност и защитаващи поверителността с над 1 милиард маски.

Неговите предложения

SAM позволява на потребителите да избират обекти в изображение само с едно кликване или чрез въвеждане текст команди. Да вземем за пример снимка на диви животни. Написването на думата тигър ще подкани инструмента да идентифицира и нарисува кутии около всеки тигър в снимката. SAM генерира много валидни маски в случай, че има някакви несигурности в обекта, който се сегментира. Това е решаваща и съществена способност за решаване на сегментации в реалния свят.

Моделът разчита на трансформаторна визуална мрежа. Това помага лесно да се намери връзката между две последователни части от данни, като думи във фраза или обекти в снимка. Meta също разкри, че моделът има способността бързо да сегментира обект за по-малко от 50 милисекунди след получаване на подкана.

В предишните модели на сегментиране имаше две групи начини за справяне с всеки проблем със сегментирането. Първият метод, интерактивното сегментиране, изискваше присъствието на индивид, който да ръководи процеса чрез многократно прецизиране на маска. Вторият метод се нарича автоматично сегментиране. Това изисква значителен брой ръчно анотирани обекти. Той също така се нуждае от помощта на необходимите компютърни ресурси и технически познания по отношение на обучението на модела за сегментиране.

SAM е единичен модел, който може лесно да поддържа и двете техники за сегментиране. Това премахва изискването потребителите да събират данни за сегментиране и да персонализират модел. Накратко, това ще помогне на потребителите да спестят време и усилия. Интерфейсът на модела също позволява на хората лесен достъп и използване по гъвкав начин.

В допълнение към тях, Мета сподели, че са тествали модела SAM за интерактивно анотиране на снимки, а прясно анотираните данни след това са използвани за актуализиране на SAM на свой ред. Разработчиците обаче откриха, че зависимостта само от анотацията на изображението не е достатъчна, за да се създаде набор от данни от 1 милиард маски. Това беше една от основните причини Meta да проектира набора от данни SA-1B, който включва три основни процеса.

Както бе споменато по-горе, моделът подпомага анотаторите на първа предавка. Междувременно втората процедура съчетава автоматични и подпомогнати анотации. Това е за увеличаване на разнообразието на събраните маски. Третият и последен процес на набора от данни е напълно автоматично създаване на маска, което позволява на набора от данни да достигне повече от необходимите 1.1 милиона маски за сегментиране.

SAM – Допълнителни употреби

Според Meta, SAM има широк спектър от приложения и може да се използва направо от кутията в нови домейни на изображения. Пример за това е подводна фотография или клетъчна микроскопия без каквото и да е допълнително обучение (трансфер с нулев изстрел). Освен това компанията добави, че моделът може да бъде полезен в енергийни приложения.

Има други случаи на използване на SAM в други области, които изискват идентифициране и сегментиране на обекти в изображения. Това приложение може да помогне на програмистите да получат ясна представа за визуалното и текстовото съдържание на уеб страница. Meta се надява, че SAM също ще се окаже полезен в домейна на VR като избирането на обект въз основа на погледа на потребителя и вдигането му в 3D. За създателите на съдържание моделът може да подобри творческите приложения, като предостави повече опции като премахване на секции с изображения за колажи или редактиране на видео. Те също така заявиха, че моделът може да бъде от полза за много научни изследвания, свързани с природни явления на Земята или дори в космоса.

Кредит за снимка: Характерното изображение е предоставено от Meta за използване в медиите.

Беше ли полезна тази публикация?

N Аслам
N Аслам
Технически журналист
- Реклама -
- Реклама -
- Реклама -
- Реклама -
- Реклама -
- Реклама -