Голосящий ИИ

За последние несколько лет разработчики голосовых роботов проделали огромный путь по совершенствованию нейронных сетей для озвучивания текста. Теперь голосовых роботов почти не отличить от людей. Это дает новые возможности бизнесу и игровым студиям, но пугает актеров озвучки.

Небольшая компания из Сиэтла WellSaid Labs провела на минувшей неделе свой первый инвестиционный раунд и сумела привлечь $10 млн, в том числе от Qualcomm. Стартап, сформировавшийся в самостоятельную компанию всего пару лет назад из научного проекта Института ИИ имени Аллена, занимается разработкой технологии преобразования текста в речь, используя при этом голоса реальных актеров и нейросеть. И компания настолько продвинулась в своих разработках, что теперь может предложить своим клиентам голосовых роботов с индивидуальной манерой общения. Но что самое главное — нынешних голосовых роботов практически не отличить от людей.

История создания компьютерных технологий синтеза речи знает два основных подхода. Первый — конкатенативный метод синтеза речи. Его суть сводится к склейке отдельных аудиофрагментов с целью получения нового готового аудиопродукта. Такой способ требует обработки сотен часов аудиоматериала, который записывается актерами озвучки, и обработка эта может длиться неделями и даже месяцами, пока в результате не получится необходимый продукт. Так, например, по словам Сьюзан Беннетт, чьим голосом разговаривает оригинальная версия Siri, ей пришлось записывать на студии сотни фраз и предложений, чтобы получить все звуковые комбинации на английском языке. На это уходило по четыре часа в день, а работа в студии продолжалась пять месяцев, по пять дней в неделю.

Второй подход — параметрический. Именно к нему прибегают разработчики современных голосовых роботов, за которыми стоит искусственный интеллект. Здесь нейросеть не пытается собрать слова и предложения из отдельных звуков, а учится самостоятельно подбирать манеру речи, тембр голоса и другие особенности голосового воспроизведения текста, основываясь на вероятностной модели и заданном контексте. Первой такой моделью стала WaveNet, представленная компанией DeepMind в конце 2016 года.

Больше никаких месяцев работы актеров озвучки. Для обучения современным нейросетям достаточно всего нескольких часов аудиоматериала.

WellSaid, например, использует сразу две модели машинного обучения. Первая из них предсказывает, исходя из отрывка текста, общие черты того, как будет звучать говорящий, включая акцент, высоту тона и тембр. Вторая занимается деталями речи, такими как дыхание, и тем, как голос резонирует в окружающей среде.

Компаний, занимающихся такими разработками, уже десятки по всему миру — от международных корпораций вроде Google, Amazon, Facebook, IBM, Nuance Communications, Baidu, до узкоспециализированных стартапов вроде WellSaid Labs, DeepMind, Resemble AI, Vocalid, Houndify, SOVA. А весь рынок технологий синтеза речи, по прогнозу Markets and Markets, к 2026 году достигнет объема в $5 млрд.

Голосовые роботы могут использоваться компаниями в качестве операторов колл-центров, для автоматического обзвона клиентов в рекламных или информационных центрах, или быть голосовыми помощниками. Наконец, они могут использоваться для озвучки героев фильмов, мультфильмов или компьютерных игр. Так, например, игровая студия Obsidian, разработавшая в свое время Armed Warfare для Mail.ru, заявила, что использует технологию синтеза речи от компании Sanontic. Роботы нужны разработчику на этапе создания игры, чтобы лучше понимать, как будут звучать прописанные в сценарии диалоги. Но для финального релиза компания пока все еще приглашает актеров.

А вот разработчикам с маленьким бюджетом или создателям модов для игр приглашение настоящего актера озвучки, скорее всего, окажется не по карману. И для них столь умный голосовой робот —идеальное решение проблемы.

Так, например, и поступил российский разработчик мода «Памятная ночь» для игры «Ведьмак 3». Он использовал модель искусственного интеллекта, чтобы воссоздать голос Дага Кокла — актера, озвучивавшего главного героя игры в оригинальной версии. И эта новость тут же вызвала опасения у представителей актерского ремесла. «Если это правда, то это просто душераздирающе,— сообщил в Twitter Джей Бриттон, актер, озвучивавший героев многих компьютерных игр.— Да, ИИ мог бы заменить какие-то вещи, но должен ли? Нам необходимо принять решение. Замена актеров ИИ — это не только минное поле с юридической точки зрения, но и совершенно бездушный выбор».

Источник: https://www.kommersant.ru/doc/4900267