Синтезаторы речи: насколько трудно отличить ИИ от человека?

26 ноября 2024

фото: Роман ПОПОВ (сгенерировано с помощью нейросети)

Искусственный интеллект выходит на новый уровень, создавая синтезированные голоса, которые звучат пугающе реалистично. Эти технологии могут имитировать акценты, шептать, выражать эмоции и даже копировать голоса реальных людей. Но как мы можем отличить человеческую речь от голоса, сгенерированного ИИ?

Современные голосовые технологии позволяют легко начать разговор с ИИ. Например, инструменты вроде голосовой функции ChatGPT могут не только отвечать с эмоциональными вариациями в тоне, но и менять акценты и говорить на десятках языков. Эти функции уже используются в чат-ботах, а также в таких задачах, как заказы по телефону, демонстрируя способности, которые когда-то казались фантастикой.

Однако технологии клонирования голоса вызывают тревогу. В некоторых случаях они используются для создания поддельных аудио, как, например, клонированный голос сэра Майкла Паркинсона для подкаста или голос сэра Дэвида Аттенборо, произносящий вещи, которых он никогда не говорил. Хуже того, голосовые клоны используются в мошеннических схемах, например, для обмана людей и получения денег.

Отличить человека от ИИ становится труднее

Эксперты, изучающие человеческую речь, признают, что разница между голосом человека и ИИ становится всё менее заметной. Джонатан Харрингтон, профессор фонетики Мюнхенского университета, говорит, что современные синтезаторы речи настолько продвинуты, что даже специалистам сложно определить, где ИИ, а где человек.

Чтобы проверить, насколько реальны голоса ИИ, команда BBC провела эксперимент. Один из отрывков из «Алисы в стране чудес» читался человеком, другой — ИИ. Примерно половина участников не смогли отличить их, что свидетельствует о высоком уровне технологий.

Как выявить искусственный голос?

Есть признаки, которые могут помочь. Например:

Просодия и интонация. Люди естественно меняют высоту голоса и акцентируют слова в зависимости от контекста. ИИ всё ещё может ошибаться в этих нюансах, хотя его возможности постоянно растут.
Дыхание. Неправильное или слишком регулярное дыхание в аудио может быть сигналом, что голос искусственный.
Ошибки речи. Люди часто запинаются, возвращаются к мыслям или допускают оговорки — ИИ, как правило, говорит слишком гладко.
Контекст речи. Иногда голос ИИ может не учитывать общий смысл диалога, неправильно расставляя акценты.

Однако технологии развиваются. Современные модели могут смеяться, шептать, воспроизводить невербальные сигналы и даже передавать тонкие изменения в эмоциональном состоянии.

Риски и вызовы

Голосовые клоны представляют серьёзные угрозы. Например, злоумышленники уже используют их, чтобы обманывать компании или членов семьи, выдавая себя за знакомых людей. В одном случае мошенники клонировали голос генерального директора компании и пытались получить учётные данные сотрудников.

Некоторые компании разрабатывают инструменты для борьбы с этим. Например, программное обеспечение для распознавания deepfake помогает определять поддельные аудио. McAfee, ElevenLabs и другие предлагают решения для защиты от подделок.

Что ждёт нас дальше?

Пока технологии генерации ИИ совершенствуются, инструменты обнаружения будут также развиваться, создавая гонку между создателями ИИ и защитниками от его злоупотреблений.

Эксперты отмечают, что лучший способ избежать обмана — использовать проверенные методы идентификации. Например, задавать личные вопросы или перезванивать знакомым, чтобы подтвердить их личность.

Пока будущее остаётся неопределённым, одно становится ясно: в эпоху высоких технологий общение лицом к лицу приобретает особую ценность. Ведь ничто не заменит искреннюю, человеческую связь.

Источник: BBC