Превращать слова в изображения роботы пока не научились.
Фото: Vostock-photo
Превращать слова в изображения роботы пока не научились.
Фото: Vostock-photo

Гонка перевоплощений: петербургская компания научит нейросети рисовать

402
Анна Торговцева
12 марта 2021, 07:52

Компания Statanly Technologies разрабатывает нейросеть, генерирующую изображение по текстовому описанию. Над похожей системой работает Илон Маск.

Технология text–to–image предполагает, что искусственному интеллекту выдаётся набор слов (например: море, песок, белый лайнер, закат), а он генерирует соответствующий пейзаж. Полноценное решение такой задачи может занять и год, и два, и десять, рассказал генеральный директор Statanly Technologies Сергей Фёдоров.

Однако некоторые наработки уже есть. Петербургские учредители компании основали в США стартап Deflamel.

"Мы разбираем текст по тегам — ключевым словам. Делаем запрос, накладываем картинки друг на друга — получается оригинальное изображение. Своего рода коллаж, у которого не будет проблем с авторским правом", — говорит Сергей Фёдоров. Другой проект — Witsart — пока только осуществляет поиск подходящего изображения к тексту.

Стоимость создания инновации оценивается примерно в десятки миллионов рублей.

"В США, например, те же разработки могут вестись уже за десятки миллионов долларов — там кадры дороже (но при этом не лучше)", — подчёркивает Фёдоров. Пока проект финансируется целиком за счёт собственных средств компании.

"Для генерации произвольных изображений из произвольного текста высока вероятность столкнуться, во–первых, с очень наукоёмкими проблемами, которые потребуют привлечения дорогих разработчиков, математиков, а возможно, даже лучших мировых учёных в этой области. А во–вторых, с необходимостью поиска, покупки или формирования больших наборов данных (датасетов). В таком случае бюджет проекта легко вырастает до десятков, а то и сотен миллионов долларов", — считает Алексей Каленчук, директор по акселерации по направлению технологий виртуальной и дополненной реальности фонда "Сколково".

Существующие технологии, в том числе Open AI от Илона Маска, уже умеют генерировать тривиальные объекты (стол, стул или окно). Однако пейзажи и сложные композиции нейросетям не даются.

"С точки зрения нейросетей и текст, и изображения описываются одинаково — векторами признаков. Большой интерес к генерации изображений по текстовому описанию возник благодаря проекту DALL·E в январе этого года. Новый алгоритм построен на основе архитектуры нейросетей Transformer, которая обычно используется для обработки текстов, но в данном случае была применена для работы с изображениями. DALL·E способен генерировать иллюстрации, реалистичные фотографии, несуществующие комбинации объектов и многое другое", — отмечает генеральный директор Sarafan Technology Андрей Корхов.