Само преди месеци, ако искахте да създадете картина на нещо, трябваше да можете да скицирате, рисувате или да използвате един от инструментите за фотошоп, за които другите продължават да говорят. След 2022 г. обаче всичко се промени, всичко благодарение на AI – да, както в „изкуствения интелект“.

Вместо да се опитват да доминират над света, инструментите с изкуствен интелект могат да превърнат всичко, което им описвате, в изображение.

Елате с нас, докато навлизаме в света на задвижваната от AI текстова визуализация и вижте как можете да използвате такива инструменти, за да преобразувате мислите си в действителни картини, като просто напишете това, което имате предвид.

Dall-E: Художествената страна на GPT-3 на OpenAI

Първите инструменти, задвижвани от AI, които станаха популярни, бяха базирани на GPT-3 на OpenAI. Една от причините беше отвореността на проекта за външен достъп, което доведе до някои предложения, че GPT-3 е бъдещето на творческата работа.

Днес можете да използвате официалните инструменти, които можете да намерите на

instagram viewer
Бета сайтът на OpenAI или решения на трети страни, които се възползват от неговите лингвистични суперсили. Например, можете да помолите GPT-3 да излезе с чернова за публикация, да отговори на прости въпроси или дори да преработи или преведе текст.

През 2022 г. OpenAI разкри, че GPT-3 е също толкова добър в изработването на изображения. Проектът DALL-E, игра на филма WALL-E на Pixar и името на Дали, използва GPT-3 не за работа с текст, а като машина за създаване на изображения.

Точно както при GPT-3 и текста, DALL-E всъщност не е творчески гений, който материализира изображения от нищото. Вместо това е „обучен“ на милиони изображения, които вече съществуват онлайн. Неговите AI сили се крият в анализирането на тези изображения, вземането на елементи от тях, настройването, преобразуването, коригирането и накрая комбинирането им в нови изображения.

Поне това е опростена версия на това, което се случва на заден план. Повечето хора ще се интересуват само от това, което виждат пред себе си, а това е текстово поле, където можете да въведете нещо и да го видите превърнато в изображение след няколко минути.

Imagen отговор на Google

Google е един от трите най-големи „играчи“ в изследванията на AI. И все пак техният напредък не е лесно забележим, нито внедряването му в продукти е толкова достъпно, колкото предложенията на OpenAI.

Едно от първите широко достъпни приложения на Google AI беше в Google Docs и Gmail, под формата на по-интелигентно автоматично попълване и предложения, известни като Smart Compose. Няма да навлизаме в подробности, тъй като вече разгледахме Smart Compose (и как можете да го използвате).

Когато тези функции са активни, уеб приложенията на Google сравняват това, което потребителят въвежда с това, което милиони други са писали в миналото. След това предлага какво са написали след това.

Това е доказателство, че въпреки това, в което искаме да вярваме, не сме толкова различни. Ако 99 от 100 души напишат „по-късно“ след „ще се видим“, вероятно това ще продължим да пишем и ние.

Всички сме използвали някаква форма на автоматично довършване, дори от системата за предсказуем текст T9 в ерата на "тъпофона". Ето защо AI инструментите на Google не изглеждаха толкова интелигентни, колкото GPT-3 на OpenAI. Те не се чувстваха толкова по-използвани, отколкото по-добра система T9, подобрена за 21-ви век. И затова разкритието на Imagen беше малко шокиращо.

Подобно на DALL-E на стероиди, Imagen е инструмент за визуализация на текст. Въз основа на това, което е налично днес, Imagen може да произведе „по-чисти“ и по-ярки изображения, като същевременно знае как да се справи с разширени функции като дифузия и прозрачност.

За съжаление, към момента на писане достъпът до Imagen остава ограничен, така че не можахме да го изпробваме.

DALL-E Mini и приятели: отворен за бизнес

Все още нямате свободен достъп до DALL-E и Imagen. И все пак, много алтернативи вече са налични, ако искате да се заблуждавате с генерирането на текстови изображения, задвижвани от AI.

Имайки предвид, че това са първите дни и резултатите или потребителското изживяване, което предлагат, може да са далеч от оптималните, все пак си струва да проверите някои от следните.

Създаване на мемета с Dall-E Mini

Благодарение на комбинация от повече от адекватни резултати и удобен за потребителя интерфейс, но по-важното е широката му достъпност, DALL-E mini се превърна в един от най-популярните текстови визуализатори с изкуствен интелект.

Далеч от съвършенство, понякога резултатите на DALL-E mini могат да бъдат по-абстрактни от очакваното.

Друг път може да не успее да създаде това, което сте имали предвид, но може да се доближи доста.

След експлозията на популярността му, създателите на DALL-E mini го преместиха в нов дом под нова марка. Сега можете да намерите най-новата версия на DALL-E mini като Пастел на собствения си сайт.

Използването на Craiyon днес е толкова лесно, колкото търсенето онлайн на съществуващо изображение. Можете да посетите неговия сайт, да въведете описание на вашата снимка в текстовото му поле и да натиснете Enter. След известно време ще видите резултатите на екрана си.

Това, което е поразително, е колко добри са Craiyon и подобни инструменти в имитирането на визуални стилове. Например, помолихме го да създаде изображения на кученце на скейтборд:

След това използвахме точната фраза, но добавихме „стил Pixar“ след нея. След известно време Craiyon показа мрежа от по-„карикатурни“ изображения, по-близки до това, което възприемаме като графики с проследяване на лъчи на Pixar в техните любими филми.

Craiyon ни даде още по-добри резултати, когато заменихме „Pixar style“ с „anime style“ в същата подкана.

Анимето е по-стилизирано във външния си вид от по-реалистичните изображения на Pixar, което изглежда е помогнало на Craiyon да създаде някои почти готови за използване изображения.

Заблуждаване с латентна дифузия

Моделът Latent Diffusion, обучен върху набора от данни LAION-400M, е друг интересен текстов визуализатор с изкуствен интелект. Въпреки това, използването му е по-сложно. Трябва да го стартирате онлайн във виртуална машина и да си играете с различните му параметри, вместо просто да пишете в текстово поле. Все пак е по-лесно отколкото звучи.

  1. Посетете Пространство за съвместна работа на Google Latent Diffusion това в момента е неговият дом.
  2. Превъртете малко надолу и забележете подкана поле под Параметри. Заменете подканата по подразбиране с това, което искате да изобразява вашето изображение.
  3. Избирам Пусни всички от Време за изпълнение меню или натиснете CTRL + F9.
  4. Ако искате да можете да експортирате създадените изображения директно от инструмента, отговорете положително на въпроса дали искате да го свържете с вашия акаунт в Google Drive. Инструментът отнема известно време, за да завърши конфигурацията си и трябва да изтегли някои файлове по време на процеса.

Увеличаване на стойностите за стъпки, Итерации, и Проби_в_паралел, може да доведе до по-подробни резултати. Инструментът обаче е изключително взискателен към ресурсите на сървърите на Google. В резултат на това може да се срине, ако увеличите тези стойности твърде много или процесът на създаване на конкретно изображение стане по-сложен от очакваното.

Интересни алтернативи

Прекарахме значително време в тестване на DALL-E mini и Latent Diffusion. Нашият научен метод се състоеше от две отделни части. Първо, трябваше да измислим концепции, които могат точно да бъдат описани като луди. След това помолете тези AI визуализатори да ги превърнат в изображения. По-често от очакваното те успяваха, доближавайки се до общата настройка, която бяхме предвидили.

Изпробвахме и някои от наличните алтернативи за тази статия. Все още чакаме достъп до други. Някои от тези, които си струва да проверите, са (без определен ред):

  • По средата на пътуването
  • MindsEye бета
  • StarryAI
  • Мечта
  • Диско дифузия

Изкуството, генерирано от AI, ще замени ли визуалните изкуства?

Изобилието и непрекъснато нарастващата популярност на инструменти, базирани на изкуствен интелект, карат мнозина да заключат, че визуалните изкуства скоро ще умрат. Какъв е смисълът да инвестирате време и енергия, за да научите как да рисувате или да използвате сложен софтуер за визуализиране на нещата, когато AI може да го направи по-бързо (а скоро и по-добре) от вас?

Ако сте забелязали, всички тези инструменти са „обучени върху набори от данни“. На обикновен английски това означава, че те правят това, което правят, благодарение на хората, които вече са правили същото нещо преди.

Това е подсказката защо тези инструменти не могат да заменят човешкото изкуство, креативност и изобретателност. Те са имитатори, умни репликатори. Без произведените от хора оригинали, на които са обучени, те не биха могли да произвеждат никакви резултати.

Все пак това е сегашното време и признаваме, че не знаем какво крие бъдещето. Засега визуалните артисти могат да спят спокойно. Със скоростта, с която AI се развива обаче, много специалисти по темата са съгласни, че не е въпрос дали някога ще замени работата на хора като вашия наистина. Въпрос е само кога.

Но хей, не всичко е обречено и мрачно. Докато Skynet се готви да поеме работата ни, поне можем да подобрим настроението си, като създаваме без усилие изображения на кученца на скейтбордове!