Переводчики 2.0. Рынок ПО для обработки иностранных текстов внедряет искусственный интеллект

Автор фото: Photoxpress
Автор фото: Photoxpress
С каждым годом рынок переводов становится все масштабнее. По подсчетам TranslationRating, в 2017 году его объем в России достиг 17,6 млрд рублей, что на 4,1% больше, чем годом ранее.
Комфортнее всего на этом рынке себя чувствуют предприятия, работающие в тех областях, где точность перевода критически важна, например в государственном секторе. Среди крупнейших представителей отрасли — ООО "Транстех", которое занимается обработкой экспортной документации для ПВО, военной авиации и судов. В 2017 году компания нарастила выручку до 341 млн рублей против 276 млрд в 2016–м.
Примечательно, что стратегически важными переводами пока занимаются исключительно люди. Но эксперты уверены, что появление нового поколения программ на базе нейросетей может пошатнуть позиции лидеров рынка.
В декабре 2018 года немецкий стартап DeepL "обучил" свой бесплатный онлайн–переводчик русскому языку. Встроенный в программу искусственный интеллект (ИИ) распознает жаргонизмы и считывает оттенки смыслов.
"Наши исследователи создали собственную уникальную архитектуру нейронных сетей", — рассказал "ДП" представитель компании Ли Тернер Кодак. По его словам, онлайн–переводчик учился на базе миллиардов переведенных текстов, часть из которых — качественно обработанные документы ООН.
Руководство стартапа не раскрывает точные затраты на разработку программы, отмечая, что речь идет о нескольких миллионах евро. При этом ежегодная чистая прибыль компании уже превысила 1,3 млн евро.
Появление подобных стартапов привело к повышению массового интереса к машинному переводу. По оценке аналитиков сайта Statista, в 2017 году мировой объем рынка таких услуг превысил $45 млрд. Из них на долю ПО для перевода пришлось $450 млн. По прогнозам экспертов, к 2022 году этот показатель вырастет до $983 млн, к 2024–му — до $1,5 млрд.

Дорогое удовольствие

Сегодня использовать нейросети для перевода могут себе позволить только крупные IT–компании. Игроки рынка подчеркивают, что для обучения ИИ необходимо оборудование, сопоставимое с крупными "фермами" для майнинга криптовалюты. В денежном выражении это десятки миллионов долларов.
"Машинный перевод на основе нейросетей оперирует не отдельными фразами и словосочетаниями, а целыми предложениями, что позволяет получить результат более высокого качества, — рассказывает директор по развитию компании PROMT Юлия Епифанцева. — Но даже при больших вычислительных мощностях тренировка одной нейронной модели требует от 1 до 3 недель".
Отметим, что искусственный интеллект использовался даже в самых первых версиях компьютерных переводчиков. "Это был один из первых шагов на пути к коммерциализации ИИ. Первые работающие программы появились десятки лет назад", — вспоминает Юлия Епифанцева. Со временем поменялись лишь подходы к использованию ИИ.
Эксперты уверены, что во многих случаях инвестировать в нейросети нецелесообразно, поскольку зачастую получить максимально точный перевод не требуется. Как пример — комментарии пользователей на международных туристических сайтах. Для этого по–прежнему используется статистический перевод, который анализирует не предложения, а отдельные слова и выражения.
Такие решения значительно дешевле и не требуют большого количества мощностей. Также эта технология используется в бесплатных онлайн–переводчиках для повседневных нужд. В свою очередь, нейронные сети необходимы для точной передачи смысла документов или научных трудов.

Коммерческая тайна

Фактически нейронные переводчики отличаются друг от друга лишь двумя показателями — архитектурой искусственного интеллекта и качеством базы.
"Подбор правильной архитектуры — это, в общем–то, магия. Разработчики ищут оптимальные параметры для обучения ИИ, и эта фишка становится коммерческой тайной. Никто в Google, кроме специальных подразделений, не знает, как настроена их нейросеть", — рассказывает директор по науке и технологиям агентства искусственного интеллекта Роман Душкин.
При этом не секрет, что алгоритмы нейросетей зачастую дают сбой. Иногда искусственный интеллект придумывает неологизмы, которые не использовались в обучающих материалах. Также ИИ может допустить фактическую ошибку, заметить которую будет сложно из–за того, что с грамматической и стилистической точек зрения перевод окажется качественным.
Именно во избежание случайной ошибки живые переводчики все же останутся в критически важных сферах. Однако, по прогнозам экспертов, программы займут большую часть этого рынка уже в ближайшие 5 лет. Аналитики подчеркивают, что, вопреки стереотипам, искусственному интеллекту проще работать в специфических темах со специальной терминологией, поскольку это сокращает область поиска правильного значения слова.

Достижимый идеал

Своего рода эталоном для переводчиков считается синхронное и дистанционное переложение живой речи на другой язык. В ноябре 2018 года китайский стартап Timekettle выпустил на рынок наушники с синхронным переводом звука, задержка составляет всего пару секунд. Деньги на реализацию проекта разработчики собрали на краудфандинговой площадке. Они привлекли более $275 тыс. Наиболее явной проблемой такого перевода остается его достоверность. На нем сказывается специфика живой речи — от особенностей произношения до искаженной конструкции предложения (например, инверсии слов). По словам экспертов, ни одного удовлетворительного предложения на рынке до сих пор не представлено.