AI с автоматични надписи съществува още през 2009 г., когато Google въведени концепцията във видеоклипове в YouTube. Те използват машинно обучение, за да помогнат на процесорите да генерират автоматични надписи след прочитане на визуалните изображения.
Някои изследователи откриха възможност и видяха искрата, че ако AI може да даде автоматични надписи на изображение чрез четене на визуални елементи, може би той може също да създава картини чрез четене на въведени надписи. Този подход за превръщане на думите в образи беше да се развие ново изкуство, основано на чистата структура на нефилтрираното въображение.
По този начин включването на AI се превърна в нещо повече от неговата ефикасност. Също така е намерил своя път в изкуство намлява мода. DALL-E дебютирал само миналата година, за да превърна текста във фотореалистично изкуство. Наскоро OpenAI представи подобрена версия с DALL-E2.
DALL·E 2 официално вече е в бета версия. Ще поканим 1 милион души от нашия списък с чакащи през следващите седмици. https://t.co/MiR3OSbZp9
- OpenAI (@OpenAI) Юли 20, 2022
Как работи
Концепцията има четири ключови точки: данни за обучение, дълбоко обучение, латентно пространство и генериране на изход. Данните за обучение зависят от стотици милиони изображения, налични в интернет с дадени надписи. Тези големи набори от данни са достъпни в интернет, което помага на системата при обучение на базата данни на DALL-E 2.
Всяко изображение може или не може да съдържа множество обекти. Например, може да имате едно изображение с много неща, които се случват, като кола на пътя в слънчев ден, минаваща покрай небостъргач. Това е мястото, където дълбокото обучение подпомага DALL-E 2 при разграничаването на множество обекти в едно изображение. При създаването на ново изображение системата трябва да постави тези обекти, като същевременно разбира разликите между всеки, за да поддържа изгледа по-добър. Дълбокото обучение използва стотици променливи, за да прави разлика между обекти, докато проектира ново изображение. Тези променливи могат да бъдат цвят, блясък, размер, геометрия и т.н.
Намаляване на рисковете, свързани с DALL·E 2 преди публичното му визуализиране: https://t.co/Ho4z3xg1OV
- OpenAI (@OpenAI) Юни 28, 2022
След това латентното пространство намира математически, геометричен начин да побере всички тези променливи в едно изображение. Процесът на превръщане на математически точки в изображения е дифузия, която превръща числата в пиксели и в резултат на това генерира изображението.
AI създава пространство във всяка възможна област, за да подобри качеството ни на живот. Сега, със софтуер като DALL-E 2, който използва AI в творческа област, AI технологията продължава да се изследва по начини, които биха предизвикали и подобрили нейните възможности.
YouTube: DALL·E 2 обяснено
Кредит за снимка: Функцията изображение е взето от Сузан Миелке.
Източници: Кристофър Алберти и Микиел Бачиани (Блог на Google AI) / Хари Джонсън (VentureBeat)