Услышать каждого: как Google создает систему голосового управления для людей с инвалидностью
Хотите записаться к врачу? Просто попросите свой телефон. Хотите включить свет в спальне? Google Home вам поможет.
Системы, управляемые голосом, сейчас представляют собой рынок объемом в $49 млрд. Они стали популярны среди потребителей благодаря возможности автоматизировать и упростить повседневные дела. Но для людей с нарушениями речи технологии, основанные на голосовых командах, работают далеко не безупречно.
Это и подтолкнуло Google к созданию Project Euphonia в рамках программы «Искусственный интеллект на благо общества». Команда проекта исследует способы улучшить распознавание речи для людей, лишенных слуха или страдающих от неврологических нарушений, таких как боковой амиотрофический склероз (БАС), инсульт, болезнь Паркинсона, рассеянный склероз или последствия травмы мозга.
Google сотрудничает с некоммерческими организациями — Институтом терапии БАС и Резидентским проектом для пациентов с БАС (ALSRI), чтобы собирать образцы голосов людей с нейродегенеративным заболеванием, которое часто ведет к значительным нарушениям речи и координации движений.
Для людей с неврологическими заболеваниями системы, управляемые голосом, могут сыграть ключевую роль в выполнении повседневных задач и общении с близкими, сиделками или коллегами. «Вы можете включать свет, музыку или с кем-то общаться. Но это возможно, только если технология способна распознать и транскрибировать ваш голос», — говорит Джули Каттьо, менеджер по продукту из Google AI.
Технология распознавания речи использует алгоритмы машинного обучения, которые требуют длительного обучения на размеченных данных. «У нас есть записи сотен тысяч или даже миллионов предложений, которые люди зачитали вслух, и мы используем их как примеры, на которых алгоритмы учатся их распознавать, — говорит Каттьо. — Но для людей с инвалидностью этого недостаточно».
Вместо этого в рамках Project Euphonia специалисты будут использовать образцы голосов людей с нарушениями речи в надежде, что базовую систему удастся обучить понимать неразборчивые команды.
Цель заключается в том, чтобы создать технологию, которая была бы более доступна для людей с нарушениями речи, однако конечный результат пока неясен.
«Возможно, у нас будут модели, подходящие для множества людей с БАС и другими заболеваниями, — говорит Каттьо. — Возможно также, что люди, даже если взять только тех, кто болен БАС, говорят слишком по-разному, чтобы создать такую модель машинного обучения. И в этом случае нам потребуется определенный уровень персонализации, чтобы у каждого человека была своя модель».
Технология распознавания речи Google способна понять практически любую голосовую команду в случае с людьми без нарушений речи благодаря большой базе данных. Но до сих пор неясно, насколько хорошо она будет понимать и выполнять указания тех, кто говорит с трудом. Команда Project Euphonia располагает ограниченным числом образцов от людей с нарушениями речи, что позволяет ей фокусироваться только на конкретных словах и фразах, таких как «почитай мне книгу» или «выключи свет».
Несмотря на то что команда Каттьо собрала уже десятки тысяч записанных фраз, она говорит, что нужны еще сотни тысяч. Отчасти именно поэтому в мае генеральный директор Google Сундар Пичаи рассказал о проекте на ежегодной конференции компании для разработчиков.
«Мы усердно работаем над тем, чтобы в будущем включить эти модели распознавания голоса в Google Assistant», — сообщил он, призвав людей с невнятной и нарушенной речью предоставлять образцы голосов.
«Данные по нарушениям речи очень сложно собрать. Это не так просто, как попросить людей записать фразы, а готовых баз данных нет, — говорит Каттьо. — Сначала нам нужно их собрать, а это большая работа».
Пожалуй, наиболее революционная инициатива Project Euphonia — разработка новых интерактивных систем искусственного интеллекта для людей, которые совершенно не могут говорить. Эти системы, которые сейчас находятся на ранних стадиях, обучают распознавать жесты, звуки и выражения лица как сигналы для определенных действий, например отправка или зачитывание текстового сообщения.
«Мы хотим покрыть полный спектр людей — не только тех, кто все еще может говорить», — объясняет Каттьо. Project Euphonia еще в младенчестве, но в будущем он может сильно повлиять на положение людей с инвалидностью и вернуть им свободу и гибкость для самостоятельной жизни.
Перевод Натальи Балабанцевой