Meta niedawno odsłonięty model sztucznej inteligencji zwany Segment Anything Model (SAM). Jest to program, który może szybko rozpoznawać i usuwać określone obiekty na obrazie lub filmie. Wraz z SAM, Meta wydała również zestaw danych Segment Anything 1-Billion (SA-1B). Dzięki temu twierdzą, że jest to największy zbiór danych segmentacji, jaki kiedykolwiek powstał.
Powodem, dla którego Meta udostępniła zbiór danych opinii publicznej, było zmniejszenie zapotrzebowania na „specyficzną wiedzę w zakresie modelowania, obliczenia szkoleniowe i niestandardowe adnotacje danych do segmentacji obrazu”. Mówi się, że model SAM jest zbudowany przy użyciu zestawu danych SA-1B, który składa się z 11 milionów zdjęć w wysokiej rozdzielczości i szanujących prywatność z ponad miliardem masek.
Jego oferty
SAM umożliwia użytkownikom wybieranie obiektów na obrazie za pomocą jednego kliknięcia lub wprowadzania XNUMX polecenia. Weźmy przykład zdjęcia dzikich zwierząt. Napisanie słowa tygrys spowodowałoby, że narzędzie zidentyfikowałoby i narysowało ramki wokół każdego tygrysa na zdjęciu. SAM generuje wiele prawidłowych masek na wypadek, gdyby segmentowany obiekt był niepewny. Jest to kluczowa i niezbędna umiejętność rozwiązywania segmentacji w świecie rzeczywistym.
Model opiera się na transformatorowej sieci wizyjnej. Pomaga to łatwo znaleźć połączenie między dwoma kolejnymi fragmentami danych, takimi jak słowa we frazie lub obiekty na zdjęciu. Meta ujawniła również, że model ma możliwość szybkiej segmentacji obiektu w mniej niż 50 milisekund po otrzymaniu monitu.
Dzisiaj udostępniamy Segment Anything Model (SAM) — krok w kierunku pierwszego podstawowego modelu segmentacji obrazu.
SAM jest w stanie jednym kliknięciem segmentować dowolny obiekt z dowolnego zdjęcia lub wideo + zero-shot przenieść do innych zadań segmentacji ➡️ https://t.co/qYUoePrWVi pic.twitter.com/zX4Rxb5Yfo
—Meta AI (@MetaAI) 5 kwietnia 2023 r.
W poprzednich modelach segmentacji istniały dwie grupy sposobów radzenia sobie z każdym problemem segmentacji. Pierwsza metoda, segmentacja interaktywna, wymagała obecności osoby, która prowadziła proces poprzez wielokrotne udoskonalanie maski. Druga metoda to automatyczna segmentacja. Wymaga to znacznej liczby ręcznie opatrzonych adnotacjami obiektów. Potrzebuje również pomocy niezbędnych zasobów obliczeniowych i wiedzy technicznej dotyczącej uczenia modelu segmentacji.
SAM to pojedynczy model, który z łatwością obsługuje obie te techniki segmentacji. Eliminuje to wymóg zbierania danych segmentacji i dostosowywania modelu przez użytkowników. Krótko mówiąc, pomoże użytkownikom zaoszczędzić czas i wysiłek. Interfejs modelu umożliwia również łatwy dostęp do niego i korzystanie z niego w elastyczny sposób.
Oprócz tego Meta udostępniła, że przetestowała model SAM w celu interaktywnego opisywania zdjęć, a świeżo opatrzone adnotacjami dane zostały następnie wykorzystane do aktualizacji SAM. Jednak programiści odkryli, że poleganie wyłącznie na adnotacjach obrazu nie wystarczyło do stworzenia zestawu danych zawierającego miliard masek. Był to jeden z głównych powodów, dla których Meta zaprojektowała zestaw danych SA-1B, który obejmuje trzy główne procesy.
Jak wspomniano powyżej, model wspomaga adnotatorów na pierwszym biegu. Tymczasem druga procedura łączy automatyczne i wspomagane adnotacje. Ma to na celu zwiększenie różnorodności gromadzonych masek. Trzecim i ostatnim procesem zbioru danych jest całkowicie automatyczne tworzenie masek, dzięki czemu zbiór danych może osiągnąć więcej niż wymagane 1.1 miliona masek segmentacji.
Segment Anything Model (SAM) firmy Meta AI to krok w kierunku pierwszego podstawowego modelu segmentacji obrazu. SAM jest w stanie dokonać segmentacji jednym kliknięciem dowolnego obiektu ze zdjęć lub filmów + transfer zerowy do innych zadań segmentacji.
Wypróbuj demo ➡️ https://t.co/jypkFsqJJL pic.twitter.com/FxtBFknky5
—Meta AI (@MetaAI) 11 kwietnia 2023 r.
SAM – Dodatkowe zastosowania
Według Meta, SAM ma szeroki zakres zastosowań i może być używany od razu po wyjęciu z pudełka w nowych domenach graficznych. Przykładem może być fotografia podwodna lub mikroskopia komórkowa bez żadnego dodatkowego szkolenia (transfer zero-shot). Firma dodała ponadto, że model może być przydatny w zastosowaniach energetycznych.
Istnieją inne przypadki użycia SAM w innych dziedzinach, które wymagają identyfikacji i segmentacji obiektów na obrazach. Ta aplikacja może pomóc programistom uzyskać przejrzysty widok zawartości wizualnej i tekstowej strony internetowej. Meta ma nadzieję, że SAM sprawdzi się również w domenie VR, na przykład wybierając obiekt na podstawie spojrzenia użytkownika i przenosząc go do 3D. Dla twórców treści model może udoskonalić kreatywne aplikacje, zapewniając więcej opcji, takich jak usuwanie fragmentów obrazu do kolaży lub edycji wideo. Stwierdzili również, że model może przydać się wielu badaniom naukowym związanym ze zjawiskami naturalnymi na Ziemi, a nawet w kosmosie.
Źródło zdjęcia: Obraz obiektu został dostarczony przez Meta do użytku prasowego.