К сожалению, сайт не работает без включенного JavaScript. Пожалуйста, включите JavaScript в настройках вашего броузера.

Женщина с громким голосом: как стартап, синтезирующий речь, привлек $3,5 млн

Зина Куреши и Джон Флинн (Фото Sonantic)
Зина Куреши и Джон Флинн (Фото Sonantic)
Зина Куреши — генеральный директор и соучредитель компании Sonantic, которая использует искусственный интеллект для имитации человеческого голоса. Куреши начинала с обучения детей с задержкой развития речи, а теперь возвращает голоса голливудским актерам и экономит игровым студиям сотни часов на озвучку

Актер Вэл Килмер, известный по фильмам «Бэтмен навсегда», «Схватка» и «Дорз», в 2014 году потерял голос из-за рака гортани. В 2021-м он обрел его снова — благодаря искусственному интеллекту, который имитирует его речь. Алгоритм создала британская компания Sonantic. Ее CEO Зина Куреши до того, как заняться синтезом речи, исследовала Коран с помощью искусственного интеллекта, помогала незрячим людям и детям с аутизмом.

Звуки, голосовые сообщения и священные тексты

В 2010 году у одного из членов семьи американки Зины Куреши диагностировали расстройство аутистического спектра. Она начала изучать методы, использующиеся для коррекции поведения и речевого развития таких пациентов — речевую и ABA-терапию. А потом поняла, что готова помогать и другим людям, — и в течение девяти лет учила говорить невербальных детей с РАС, разбивая слова на отдельные звуковые блоки, чтобы ребенку было проще повторять звуки.

Окончив школу, Зина переехала в Лондон и в 2013 году получила степень бакалавра по материальной истории искусств в Университетском колледже Лондона. А год спустя закончила факультет технологического предпринимательства в Стэнфордском университете. Интерес к технологиям появился у Зины благодаря родственникам — у ее сестер был блокчейн-стартап, направленный на помощь беженцам. Сама она в 2014 году, еще будучи старшекурсницей, сделала приложение Bespecular: в нем слабовидящие люди отправляли в чат снятые на камеру телефона фото, а зрячие описывали их в голосовых сообщениях.

 

Параллельно Куреши запустила — при поддержке своего зятя, директора по инвестициям в хедж-фонде Capricorn Fund Manager, — платформу Ananas для картирования религий и идеологий. Цель — борьба с экстремизмом: «Дословный перевод религиозных текстов вырывается из контекста в политических целях. Поддельные новости и альтернативные факты кажутся более популярными, чем мир и правда», — говорит Куреши. Первый проект платформы посвящен Корану.

Куреши объясняет, что информация о религии из интернета не всегда достоверна, а энциклопедии стараются быть объективными, хотя вера всегда субъективна. Взяв за образец Стэнфордскую философскую энциклопедию, она создала платформу на базе искусственного интеллекта, которая собирает толкования и комментарии к священным текстам ислама. В качестве вознаграждения для пользователей, участвующих в сборе и разметке данных, была создана криптовалюта Anacoin. ICO позволило создать минимально жизнеспособный продукт, дальше проект собирается существовать за счет грантов.

 

Проект начался с Корана, потому что Куреши и ее семья — мусульмане. Но платформа может работать с любым массивом убеждений: «Наша цель — построить «Граф знаний», отображающий в цифровом виде основные мировые идеологии, будь то религиозные, политические или иные, и выявить связи между информацией и контекстом. Мы также создаем инструменты, чтобы сделать эту информацию доступной и удобной для навигации для тех, кто следует этим идеологиям (чтобы помочь им выбрать лучший путь), и тех, кто хочет понять их извне», — говорит Зина.

Крики и всхлипы

В 2018 году на конференции Entrepreneur First Зина познакомилась с Джоном Флинном, который долгое время работал в кино — был задействован в постпродакшене таких фильмов, как «Темный рыцарь», «Богемская рапсодия», франшиза о Гарри Поттере. Он интересовался технологиями обработки и синтеза речи и даже показал один образец искусственного голоса Зине. «Я не могла поверить: в нем было слышно даже дыхание», — вспоминает она. 

Объединив кинематографический опыт Флинна и знания Куреши о структуре речи, полученные ею за время работы с неговорящими пациентами, они основали компанию Sonantic. «Мы знали, что хотим создавать самые выразительные и реальные искусственные голоса в мире, но нам нужно было придумать, как этого добиться», — рассказывает Зина. 

 

Компания (ее первое название — Speak Ai) разработала нейросеть, которая имитирует человеческий голос. Натуралистичность достигается за счет регулирования тембра, добавления дыхания, а главное — имитации эмоций. 

Начать решили с рыданий. «Мы подумали, что если сможем заставить компьютер изображать глубокую печаль, то позже получится воспроизвести любую другую человеческую эмоцию, чтобы сделать голос реалистичнее», — рассказывает Зина. В 2020 году стартап представил первую версию алгоритма, способного имитировать плач и тяжело вздыхать. «Команда совершила подвиг: мы сделали что-то невероятное для людей и неслыханное для машин. Мы первыми в мире совершили подобный прорыв», — с гордостью комментирует Зина Куреши.

В апреле 2021 года компания пошла дальше и продемонстрировала, как искусственный интеллект может воспроизвести злость. В записи два голоса ведут разговор, который быстро перерастает в скандал: сначала персонажи раздражены, а к концу начинают правдоподобно орать друг на друга.

А в августе стартап «вернул» голос актеру Вэлу Килмеру. Его представители связались с Sonantic еще в декабре 2020-го. Компания использовала его старые записи. Обычно звукорежиссерам компании требуется около трех часов исходных записей, однако в случае с Килмером из-за лицензионных ограничений удалось собрать лишь 30 минут. Очистив аудио от фоновых шумов, команда синтезировала более 40 голосовых моделей, лучшую из которых представили публике.

Актер Вэл Килмер в фильме «Схватка» (1995)

Сколько стоит голос

«Голос — это огромная рыночная возможность. Мы верим, что через пять лет у всех устройств появится опция реалистичного голосового взаимодействия», — считает Куреши. В марте 2020 года компания привлекла €2,3 млн в ходе раунда, который возглавила EQT Ventures. 

 

Аудиоплатформу Sonantic используют ведущие киностудии и компании — разработчики игр, в том числе Obsidian Entertainment, Splash Damage, Sumo Digital и Xbox Game Studios. «Разрабатывая игру, мы пропускали сценарий через API Sonantic. То, что получалось, не просто роботизированный диалог — это человеческий диалог. Эта технология может расширить возможности нашего творческого процесса», — делится впечатлениями директор по звуку Obsidian Entertainment Джастин Белл. Аудиоредактор включает множество различных моделей голоса. Они создаются путем записи голосов профессиональных актеров дубляжа. Клиенты могут выбрать голосовые модели из огромной базы или разработать абсолютно новый голос. 

«На озвучивание игры Red Dead Redemption было потрачено 700 часов, что в 350 раз превышает среднюю продолжительность любого фильма. На это у создателей ушло восемь лет», — рассказывает Куреши. Благодаря Sonantic студии могут сократить сроки производства компьютерных видеоигр: компаниям больше не нужно вызывать актеров озвучания для дополнительных записей или редактировать их голоса. 

При этом Куреши не считает, что технология полностью заменит живых актеров: «Цель не в том, чтобы заменить актеров, а в том, чтобы исследовать новые возможности. Мы предлагаем способ, который помогает актерам озвучки работать как вживую, так и виртуально». Напротив, Джон отмечает, что Sonantic может продлевать актерские карьеры, сохраняя голоса, потерянные из-за болезни или изменившиеся из-за возраста, как это случилось с Вэлом Килмером.

«Технологии развиваются намного быстрее, чем закон и этические нормы, поэтому мы стараемся убедиться, что понимаем наших актеров, видим, что они чувствуют, и правильно исследуем возможности», — отмечает Зина. Внимание к этическим вопросам важно еще и потому, что любая технология может использоваться как во благо, так и во вред — в данном случае для создания дипфейков. Sonantic проверяет все студии, с которыми работает, прежде чем предоставлять им доступ к голосам, и следит за тем, чтобы алгоритм не оказался в свободном доступе.

 

К 2021 году Sonantic привлек в сумме $3,5 млн (среди инвесторов — Twitch, Entrepreneur First, Horizons Ventures, EQT Ventures и другие), а Зина вошла в рейтинг Forbes 30 Under 30. 

Она признается, что, несмотря на востребованность стартапа и собственный успех, ее особенно волнует существующее в сфере технологий гендерное неравенство: «Большая часть отрасли закрыта для женщин, даже если говорят, что это не так. Женщинам не предоставляются такие же возможности, как мужчинам. Многие защитники и женщины пытаются выравнять игровое поле, но нам нужно еще много лет, чтобы наверстать упущенное. Привлечение большего числа женщин-лидеров на вершину STEM поможет создать культуру, в которой женщин и мужчин будет поровну».

Сейчас в команде Sonantic 12 человек, большинство — женщины. По словам Зины, в самом начале Джон был единственным парнем в штате (потом к проекту присоединился звукорежиссер Мэтт Смит из Rockstar Games). «Самый большой актив, который у нас есть, — это мы сами. Мы сами создаем свою судьбу, и независимо от того, насколько сложными могут быть некоторые вещи, мы всегда можем найти способ не только справиться с любой ситуацией, но и действовать стратегически», — считает Куреши.

Мы в соцсетях:

Мобильное приложение Forbes Russia на Android

На сайте работает синтез речи

иконка маруси

Рассылка:

Наименование издания: forbes.ru

Cетевое издание «forbes.ru» зарегистрировано Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций, регистрационный номер и дата принятия решения о регистрации: серия Эл № ФС77-82431 от 23 декабря 2021 г.

Адрес редакции, издателя: 123022, г. Москва, ул. Звенигородская 2-я, д. 13, стр. 15, эт. 4, пом. X, ком. 1

Адрес редакции: 123022, г. Москва, ул. Звенигородская 2-я, д. 13, стр. 15, эт. 4, пом. X, ком. 1

Главный редактор: Мазурин Николай Дмитриевич

Адрес электронной почты редакции: press-release@forbes.ru

Номер телефона редакции: +7 (495) 565-32-06

На информационном ресурсе применяются рекомендательные технологии (информационные технологии предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей сети «Интернет», находящихся на территории Российской Федерации)

Перепечатка материалов и использование их в любой форме, в том числе и в электронных СМИ, возможны только с письменного разрешения редакции. Товарный знак Forbes является исключительной собственностью Forbes Media Asia Pte. Limited. Все права защищены.
AO «АС Рус Медиа» · 2024
16+