Гонка перевоплощений: петербургская компания научит нейросети рисовать

Автор фото: Vostock-photo
Превращать слова в изображения роботы пока не научились.

Компания Statanly Technologies разрабатывает нейросеть, генерирующую изображение по текстовому описанию. Над похожей системой работает Илон Маск.

Технология text–to–image предполагает, что искусственному интеллекту выдаётся набор слов (например: море, песок, белый лайнер, закат), а он генерирует соответствующий пейзаж. Полноценное решение такой задачи может занять и год, и два, и десять, рассказал генеральный директор Statanly Technologies Сергей Фёдоров.
Однако некоторые наработки уже есть. Петербургские учредители компании основали в США стартап Deflamel.
"Мы разбираем текст по тегам — ключевым словам. Делаем запрос, накладываем картинки друг на друга — получается оригинальное изображение. Своего рода коллаж, у которого не будет проблем с авторским правом", — говорит Сергей Фёдоров. Другой проект — Witsart — пока только осуществляет поиск подходящего изображения к тексту.
Стоимость создания инновации оценивается примерно в десятки миллионов рублей.
"В США, например, те же разработки могут вестись уже за десятки миллионов долларов — там кадры дороже (но при этом не лучше)", — подчёркивает Фёдоров. Пока проект финансируется целиком за счёт собственных средств компании.
"Для генерации произвольных изображений из произвольного текста высока вероятность столкнуться, во–первых, с очень наукоёмкими проблемами, которые потребуют привлечения дорогих разработчиков, математиков, а возможно, даже лучших мировых учёных в этой области. А во–вторых, с необходимостью поиска, покупки или формирования больших наборов данных (датасетов). В таком случае бюджет проекта легко вырастает до десятков, а то и сотен миллионов долларов", — считает Алексей Каленчук, директор по акселерации по направлению технологий виртуальной и дополненной реальности фонда "Сколково".
Существующие технологии, в том числе Open AI от Илона Маска, уже умеют генерировать тривиальные объекты (стол, стул или окно). Однако пейзажи и сложные композиции нейросетям не даются.
"С точки зрения нейросетей и текст, и изображения описываются одинаково — векторами признаков. Большой интерес к генерации изображений по текстовому описанию возник благодаря проекту DALL·E в январе этого года. Новый алгоритм построен на основе архитектуры нейросетей Transformer, которая обычно используется для обработки текстов, но в данном случае была применена для работы с изображениями. DALL·E способен генерировать иллюстрации, реалистичные фотографии, несуществующие комбинации объектов и многое другое", — отмечает генеральный директор Sarafan Technology Андрей Корхов.