За последние несколько лет разработчики голосовых роботов проделали огромный путь по совершенствованию нейронных сетей для озвучивания текста. Теперь голосовых роботов почти не отличить от людей. Это дает новые возможности бизнесу и игровым студиям, но пугает актеров озвучки.
Небольшая компания из Сиэтла WellSaid Labs провела на минувшей неделе свой первый инвестиционный раунд и сумела привлечь $10 млн, в том числе от Qualcomm. Стартап, сформировавшийся в самостоятельную компанию всего пару лет назад из научного проекта Института ИИ имени Аллена, занимается разработкой технологии преобразования текста в речь, используя при этом голоса реальных актеров и нейросеть. И компания настолько продвинулась в своих разработках, что теперь может предложить своим клиентам голосовых роботов с индивидуальной манерой общения. Но что самое главное — нынешних голосовых роботов практически не отличить от людей.
История создания компьютерных технологий синтеза речи знает два основных подхода. Первый — конкатенативный метод синтеза речи. Его суть сводится к склейке отдельных аудиофрагментов с целью получения нового готового аудиопродукта. Такой способ требует обработки сотен часов аудиоматериала, который записывается актерами озвучки, и обработка эта может длиться неделями и даже месяцами, пока в результате не получится необходимый продукт. Так, например, по словам Сьюзан Беннетт, чьим голосом разговаривает оригинальная версия Siri, ей пришлось записывать на студии сотни фраз и предложений, чтобы получить все звуковые комбинации на английском языке. На это уходило по четыре часа в день, а работа в студии продолжалась пять месяцев, по пять дней в неделю.
Второй подход — параметрический. Именно к нему прибегают разработчики современных голосовых роботов, за которыми стоит искусственный интеллект. Здесь нейросеть не пытается собрать слова и предложения из отдельных звуков, а учится самостоятельно подбирать манеру речи, тембр голоса и другие особенности голосового воспроизведения текста, основываясь на вероятностной модели и заданном контексте. Первой такой моделью стала WaveNet, представленная компанией DeepMind в конце 2016 года.
WellSaid, например, использует сразу две модели машинного обучения. Первая из них предсказывает, исходя из отрывка текста, общие черты того, как будет звучать говорящий, включая акцент, высоту тона и тембр. Вторая занимается деталями речи, такими как дыхание, и тем, как голос резонирует в окружающей среде.
Компаний, занимающихся такими разработками, уже десятки по всему миру — от международных корпораций вроде Google, Amazon, Facebook, IBM, Nuance Communications, Baidu, до узкоспециализированных стартапов вроде WellSaid Labs, DeepMind, Resemble AI, Vocalid, Houndify, SOVA. А весь рынок технологий синтеза речи, по прогнозу Markets and Markets, к 2026 году достигнет объема в $5 млрд.
Голосовые роботы могут использоваться компаниями в качестве операторов колл-центров, для автоматического обзвона клиентов в рекламных или информационных центрах, или быть голосовыми помощниками. Наконец, они могут использоваться для озвучки героев фильмов, мультфильмов или компьютерных игр. Так, например, игровая студия Obsidian, разработавшая в свое время Armed Warfare для Mail.ru, заявила, что использует технологию синтеза речи от компании Sanontic. Роботы нужны разработчику на этапе создания игры, чтобы лучше понимать, как будут звучать прописанные в сценарии диалоги. Но для финального релиза компания пока все еще приглашает актеров.
Так, например, и поступил российский разработчик мода «Памятная ночь» для игры «Ведьмак 3». Он использовал модель искусственного интеллекта, чтобы воссоздать голос Дага Кокла — актера, озвучивавшего главного героя игры в оригинальной версии. И эта новость тут же вызвала опасения у представителей актерского ремесла. «Если это правда, то это просто душераздирающе,— сообщил в Twitter Джей Бриттон, актер, озвучивавший героев многих компьютерных игр.— Да, ИИ мог бы заменить какие-то вещи, но должен ли? Нам необходимо принять решение. Замена актеров ИИ — это не только минное поле с юридической точки зрения, но и совершенно бездушный выбор».
Источник: https://www.kommersant.ru/doc/4900267
Комментарии
Чтобы оставить комментарий зарегистрируйтесь или войдите
Авторизация через