Универсальный быстрый переводчик представила Meta AI

Универсальный быстрый переводчик представила Meta AI
фото: Роман ПОПОВ

Исследователи Meta AI объявили, что они разработали новый набор моделей искусственного интеллекта под названием Seamless Communication, цель которых - обеспечить более естественное и подлинное общение на разных языках.

Фактически это воплощение в жизнь концепции Универсального Переводчика Речи (Universal Speech Translator). Модели были обнародованы на этой неделе вместе с исследовательскими работами и сопутствующими данными.

Основная модель, Seamless, сочетает в себе возможности трех других моделей - SeamlessExpressive, SeamlessStreaming и SeamlessM4T v2, создавая единую систему. Согласно исследовательской работе, Seamless является "первой общедоступной системой, которая обеспечивает выразительное межъязыковое общение в реальном времени".

Переводчик Seamless представляет новый этап в использовании ИИ для общения. Он сочетает в себе три сложные нейросетевые модели, позволяющие переводить более чем на 100 устных и письменных языков в реальном времени, сохраняя при этом вокальный стиль, эмоции и просодию голоса говорящего. SeamlessExpressive сосредоточен на сохранении вокального стиля и эмоциональных нюансов голоса говорящего при переводе между языками. Как указано в работе, "переводы должны передавать нюансы человеческого выражения. Хотя существующие инструменты перевода хорошо передают содержание беседы, они обычно полагаются на монотонные, роботизированные системы преобразования текста в речь для вывода".

SeamlessStreaming обеспечивает почти мгновенный перевод с задержкой всего около двух секунд. Исследователи говорят, что это "первая крупномасштабная многоязыковая модель", обеспечивающая такую быструю скорость перевода почти на 100 устных и письменных языках.

Третья модель, SeamlessM4T v2 , служит основой для двух других моделей. Это усовершенствованная версия первоначальной модели SeamlessM4T, выпущенной в прошлом году. Новая архитектура обеспечивает "улучшенную согласованность между текстовым и речевым выводом", согласно работе.

Источник: Securitylab