К сожалению, сайт не работает без включенного JavaScript. Пожалуйста, включите JavaScript в настройках вашего браузера.

О чем речь: зачем синтезируют голоса и какие риски это влечет

Иллюстрация Getty Images
Иллюстрация Getty Images
От классических роботизированных голосов 1970-х годов до почти идеальных копий, которые мы слышим сегодня, технология синтеза речи претерпела удивительную эволюцию. Но по мере того, как клонирование голоса набирает популярность, возникают вопросы о потенциале технологии для обмана, а также о необходимости систем голосового антиспуфинга и четкого регламентирования индивидуальных прав на голос. Руководитель направления R&D речевых технологий Just AI Илья Калиновский рассказывает о том, как технологии могут преобразовать голос, какие при этом существуют риски и средства защиты от них

Эволюция голоса 

За последние восемь лет технология синтеза речи по тексту (Text To Speech, TTS) претерпела кардинальные изменения. Многие еще помнят электрическое звучание искусственных голосов, характерное для распространенной в 2000-х технологии конкатенативного синтеза (Unit Selection, US). К слову, такой синтез еще можно услышать в IVR-системах (Interactive Voice Response) некоторых банков. Но как и во многие другие области знаний, в область синтеза речи постепенно проникли нейронные сети, полностью вытеснив все предыдущие методы генерации речевых сигналов.

Технологии нейросетевого синтеза эволюционируют быстрыми темпами не только с точки зрения качества звучания, но также и функциональных возможностей. Одна из первых нейросетевых моделей для синтеза речи WaveNet, представленная DeepMind в 2016 году, продемонстрировала существенный прогресс в плавности и естественности генерируемой речи. С этого момента стало понятно, что нейросети могут успешно применяться для генерации звука, но предстояло решить еще множество проблем: генерация в режиме реального времени, улучшение управляемости и моделирование стилей речи, мультиголосовой и мультиязыковой синтез, копирование голоса и др.

Дальнейшее развитие нейросетевых архитектур разделилось на два направления: акустические модели (отвечают за генерацию параметрического представления сигнала, например, спектрограммы) и вокодеры (непосредственно генерируют аудиосигнал по его параметрическому представлению). В этом ключе удачной связкой оказалось сочетание акустики Tacotron2, представленной Google в 2017 году и вокодера LPCNet. Стоит отметить, что в настоящее время большинство коммерческих систем TTS построены именно на этих двух архитектурах во многом из-за их вычислительной эффективности.

 

Позже исследователями был предложен ряд архитектур акустических моделей (FastSpeech, FastPitch, VITS и др.), которые не только генерируют качественные голоса на уровне Tacotron2, но и на базовом уровне позволяют управлять различными характеристиками речи.

Но несмотря на большой модельный «зоопарк» и множество оригинальных решений, до недавнего времени синтезированная речь по-прежнему резала слух привередливым пользователям. Ситуация стала меняться с наступлением эпохи больших акустических SSL-моделей (Self-Supervised Learning). Подобно нашумевшим LLM (Large Language Model) типа GPT, большие акустические модели способны бесконтрольно обучаться на любых наборах аудиоданных, будь то обычная речь, песни или просто музыка, безотносительно языка и прочего содержания. SSL стали универсальными инструментами для кодирования звуков, речи, музыки и прочих аудиосигналов. Более того, современные модели (например, Bark), выходят за рамки классического TTS и предлагают генерацию новых голосов, фоновой музыки и различных звуковых эффектов на основе интуитивных текстовых подсказок (промптов) по аналогии с ChatGPT.

 

Синтез, клонирование, voice conversion: в чем разница

Синтез речи, клонирование и преобразование голоса (voice conversion) — это родственные технологии, различающиеся только тем, какие данные поступают на вход каждому алгоритму. Давайте попробуем в них разобраться.

Программы синтеза речи принимают в качестве входных данных для озвучки текст на определенном языке, и создают голос, который читает данный текст в соответствии с выбранным стилем и эмоцией. Для разработки технологии синтеза речи требуется наличие объемной фонетически и интонационно разнообразной базы реплик целевого диктора (обычно десятки часов).

Клонирование голоса (voice cloning) — это процесс создания цифровой копии голоса человека. Для клонирования голоса для современных моделей нужно записать всего несколько минут или даже секунд речи. Сам процесс генерации голоса аналогичен задаче TTS, с той лишь разницей, что какого-либо переобучения или дообучения модели клонирования не требуется. Она работает в так называемом zero-shot режиме (нулевое обучение) и способна закодировать предоставленный образец и сразу воспроизвести тембр, манеру речи и эмоцию целевого диктора при озвучке произвольного текста.

 

Преобразование голоса (voice conversion) — это процесс конвертации голоса одного человека в голос другого с сохранением интонации и эмоциональной окраски источника. Это можно представить в виде автоматической генерации кавер-версии любимой песни. Голосовые характеристики оригинального голоса изменяются таким образом, чтобы голос звучал, как если бы говорил другой человек. Важно отметить, что на вход модели подается не текст, как в выше рассмотренных задачах, а непосредственно исходный аудиосигнал и образец голоса целевого диктора.

Несмотря на кажущуюся различность этих трех задач, современное состояние исследований в области синтеза речи движется по пути получения единой универсальной модели, способной решать их все.

Придать натуральности

Сам по себе текст содержит очень мало информации о том, как его нужно произнести. Человеку, чтобы произнести текст правильно, необходимо обладать знаниями и навыками в области фонетики, интонации, артикуляции и выразительности речи. Кроме того, произношение текста может зависеть от контекста и цели высказывания. Все это делает задачу синтеза речи по тексту весьма неоднозначной, то есть одному и тому же высказыванию соответствует множество вариантов его произношения.

Без обработки естественного языка система синтеза речи не сможет правильно расшифровать и согласовать падеж числительных, расставить ударения в словах и акценты в предложении, а также определить позиции пауз и сформировать правильное интонационное оформление высказывания. Таким образом, методы NLP (Natural Language Processing) и языковые модели, в частности, играют ключевую роль в синтезе речи, позволяя генерировать более естественно звучащие искусственные голоса.

Голос в опасности

Технология голосового дипфейка использует модели voice cloning или voice conversion для создания убедительной подделки голоса, которая звучит так, как будто была произнесена реальным человеком. Для создания дипфейка требуется достаточное количество аудиоданных от конкретного человека, желательно записанных в идеальных условиях, после чего эти данные анализируются с использованием нейронной сети, которая учится имитировать голос этого человека. 

 

Угрозы, связанные с технологией голосового дипфейка, могут быть различными:

  • Мошенничество. Голосовые дипфейки могут быть использованы в преступных целях, например, для обмана банков, чтобы получить доступ к финансовым счетам и другим конфиденциальным данным. 
  • Политический шантаж. С помощью голосовых дипфейков можно создавать записи, которые звучат так, будто бы определенный политик или организация произнесли компрометирующие их слова или высказали угрозы. Это может быть использовано для шантажа.  
  • Вредоносное использование. Голосовые дипфейки могут быть использованы для создания вредоносных голосовых сообщений для атаки на систему управления зданиями или умным домом, а также взлома голосовых ассистентов — таких, как Siri, Alexa, «Салют» и другие с целью доступа к конфиденциальной информации или совершения банковских операций.  

В целом технология голосового дипфейка может быть использована для дестабилизации общества и нанесения непоправимого ущерба как отдельным личностям, так и целым организациям.

Найти и обезвредить

Кража голоса из социальных сетей может осуществляться с помощью различных методов:

  • запись голоса через приложения для общения: злоумышленник может использовать мессенджеры с функцией пересылки голосовых сообщений, чтобы записать голос пользователя;
  • сбор публичной информации: злоумышленник может использовать открытые источники — такие, как видеоблоги или интервью — для сбора голосовой информации;
  • социальная инженерия: злоумышленник может попытаться обмануть жертву, выдавая себя за кого-то другого и попросив записать голосовое сообщение.

Для предотвращения мошенничества с использованием голосовых сообщений существуют различные системы голосового антиспуфинга, которые обычно используют комбинацию технологий для аутентификации голоса.

 
  • Биометрическая аутентификация голоса: системы используют нейронные сети и машинное обучение для сравнения нового голосового сообщения с предварительно загруженным голосовым шаблоном пользователя.
  • Проверка присутствия живого голоса: системы могут использовать различные методы для проверки того, что голос не записан, например, просить пользователя зачитать случайный текст, чтобы убедиться, что это живой голос.
  • Проверка контекста: системы могут анализировать контекст, в котором происходит голосовая аутентификация, например, местоположение или устройство, которое используется для записи голоса.
  • Детекция синтеза: несмотря на кажущуюся реалистичность искусственных голосов генерируемый звук содержит мелкие дефекты, которые легко распознаются специальными моделями, обучающимися отличать реальный речевой сигнал от синтетического. Основная сложность в применении такой защиты заключается в том, что при передаче по телефонным каналам звук подвергается многократному сжатию, в результате чего дефекты синтеза становятся менее выраженными.

Право на голос

Авторского право на голос как такового не существует. Однако иногда голос может быть признан объектом интеллектуальной собственности, если он идентифицируется как индивидуальная характеристика персонажа (например, голос Ленина). В таком случае обладатель прав на голос может ограничить его использование без согласия.

Аренда голосов может получить широкое применение в таких сферах, как озвучивание рекламы и аудиокниг. Дикторы и актеры могут зарабатывать деньги, предоставляя свой голос для рекламных записей, видеоигр, фильмов и т.д. Но перспективы развития этой концепции зависят от многих факторов, включая технологические возможности, а также правовые и этические нормы. Существует множество сервисов для озвучки контента с функцией клонирования голоса. Они позволяют дикторам увеличить объем заказов на озвучку, отдавая ИИ рутинные проекты, которые не требуют особой экспрессии в голосе, а заказчикам — получать результаты значительно быстрее или вообще полностью автоматизировать озвучку, например, для стриминговой платформы.

Пока нет четкого законодательства, которое регулировало бы использование таких записей в различном контексте, поэтому передача прав на голос и его аренда могут вызвать юридические сложности. Кроме того, такая практика может создать проблемы, связанные с использованием личных данных и приватностью, поэтому ее будущее не совсем ясно и требует дальнейшего изучения и законодательного регулирования.

Мнение автора может не совпадать с точкой зрения редакции

 

Мы в соцсетях:

Мобильное приложение Forbes Russia на Android

На сайте работает синтез речи

Рассылка:

Наименование издания: forbes.ru

Cетевое издание «forbes.ru» зарегистрировано Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций, регистрационный номер и дата принятия решения о регистрации: серия Эл № ФС77-82431 от 23 декабря 2021 г.

Адрес редакции, издателя: 123022, г. Москва, ул. Звенигородская 2-я, д. 13, стр. 15, эт. 4, пом. X, ком. 1

Адрес редакции: 123022, г. Москва, ул. Звенигородская 2-я, д. 13, стр. 15, эт. 4, пом. X, ком. 1

Главный редактор: Мазурин Николай Дмитриевич

Адрес электронной почты редакции: press-release@forbes.ru

Номер телефона редакции: +7 (495) 565-32-06

На информационном ресурсе применяются рекомендательные технологии (информационные технологии предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей сети «Интернет», находящихся на территории Российской Федерации)

Перепечатка материалов и использование их в любой форме, в том числе и в электронных СМИ, возможны только с письменного разрешения редакции. Товарный знак Forbes является исключительной собственностью Forbes Media Asia Pte. Limited. Все права защищены.
AO «АС Рус Медиа» · 2024
16+