«Лучшее от двух миров»: «Яндекс» начал разработку мультимодальной модели SpeechGPT
«Яндекс» работает над мультимодальной моделью SpeechGPT и ищет для этого сотрудников. «SpeechGPT — мультимодальная LLM (большая языковая модель), которая умеет воспринимать текст и звук, отвечать текстом и звуком, решать разные задачи на стыке текста и звука», — говорится в описании вакансии, которую разместила компания. В «Яндексе» Forbes подтвердили, что развивают мультимодальность, чтобы «давать пользователям еще больше возможностей»
«Яндекс» работает над мультимодальной моделью SpeechGPT и ищет сотрудников, которые этим займутся. Компания разместила у себя на сайте объявление о поиске Machine Learning-инженера в команду SpeechGPT. На это обратил внимание «Коммерсантъ».
«SpeechGPT — мультимодальная LLM (large language model, большая языковая модель), которая умеет воспринимать текст и звук, отвечать текстом и звуком, решать разные задачи на стыке текста и звука», — говорится в описании вакансии. «Яндекс» отмечает, что при создании модели «попробует взять лучшее от двух миров»: технологий обработки естественного языка (NLP), которую использует ChatGPT, и распознавания речи (ASR), которая применяется в приложениях с голосовым помощником «Алиса».
В «Яндексе» Forbes подтвердили, что работают над мультимодальностью в голосовом помощнике «Алиса». В компании отметили, что в ее продуктах уже есть технологии мультимодальности (например, «Алиса» умеет обрабатывать как текст, так и голос, поисковый сервис «Нейро» — текст и картинки). «Мы продолжаем развивать мультимодальность, чтобы давать пользователям наших продуктов еще больше возможностей», — рассказали в компании.
Но «мультимодальный пользовательский опыт» — возможность при использовании сервиса использовать как голос, так и текст — не то же самое, что мультимодальность самой модели, объяснил «Коммерсанту» сооснователь Just AI Кирилл Петров. «Например, в случае с голосовым ассистентом речь сначала одной моделью преобразовывается в текст, этот текст анализируется другой моделью, а третья модель преобразовывает текст ответа в речь», — рассказывает Петров, такой алгоритм занимает больше времени, а также приводит к упрощениям. Мультимодальные модели (например,GPT-4o, разработанная OpenAI) обрабатывают весь контент без задержек. По словам Петрова, именно за такими технологиями будущее развития ИИ.
Мультимодальные модели могут не только распознавать речь, но и «определять эмоции и сложные невербальные приемы, такие как ирония и сарказм», отмечает гендиректор группы компаний ЦРТ Дмитрий Дырмовский.
На прошлой неделе Yandex Cloud (облачная платформа «Яндекса») разрешила клиентам использовать нейросети для классификации текстов, в том числе для обнаружения в них «противоправной информации». В компании отметили, что технология генеративного ответа также позволит бизнесу автоматизировать текстовую коммуникацию с пользователями.
В 2023 году «Яндекс» и «Сбер» запустили свои большие языковые модели (LLM): «Сбер» — GigaChat, «Яндекс» — YandexGPT. В том же году «Сбер» внедрил GigaChat в помощника «Салют» в своих умных колонках, «Яндекс» — YandexGPT в своего виртуального помощника «Алису». В апреле 2024-го «Яндекс» также запустил поиск с помощью искусственного интеллекта «Нейро», который «объединил возможности поиска и больших генеративных моделей».