К сожалению, сайт не работает без включенного JavaScript. Пожалуйста, включите JavaScript в настройках вашего браузера.

«Лучшее от двух миров»: «Яндекс» начал разработку мультимодальной модели SpeechGPT


«Яндекс» работает над мультимодальной моделью SpeechGPT и ищет для этого сотрудников. «SpeechGPT — мультимодальная LLM (большая языковая модель), которая умеет воспринимать текст и звук, отвечать текстом и звуком, решать разные задачи на стыке текста и звука», — говорится в описании вакансии, которую разместила компания. В «Яндексе» Forbes подтвердили, что развивают мультимодальность, чтобы «давать пользователям еще больше возможностей»

«Яндекс» работает над мультимодальной моделью SpeechGPT и ищет сотрудников, которые этим займутся. Компания разместила у себя на сайте объявление о поиске Machine Learning-инженера в команду SpeechGPT. На это обратил внимание «Коммерсантъ».

«SpeechGPT — мультимодальная LLM (​​large language model, большая языковая модель), которая умеет воспринимать текст и звук, отвечать текстом и звуком, решать разные задачи на стыке текста и звука», — говорится в описании вакансии. «Яндекс» отмечает, что при создании модели «попробует взять лучшее от двух миров»: технологий обработки естественного языка (NLP), которую использует ChatGPT, и распознавания речи (ASR), которая применяется в приложениях с голосовым помощником «Алиса».

В «Яндексе» Forbes подтвердили, что работают над мультимодальностью в голосовом помощнике «Алиса». В компании отметили, что в ее продуктах уже есть технологии мультимодальности (например, «Алиса» умеет обрабатывать как текст, так и голос, поисковый сервис «Нейро» — текст и картинки). «Мы продолжаем развивать мультимодальность, чтобы давать пользователям наших продуктов еще больше возможностей», — рассказали в компании.

 

Но «мультимодальный пользовательский опыт» — возможность при использовании сервиса использовать как голос, так и текст — не то же самое, что мультимодальность самой модели, объяснил «Коммерсанту» сооснователь Just AI Кирилл Петров. «Например, в случае с голосовым ассистентом речь сначала одной моделью преобразовывается в текст, этот текст анализируется другой моделью, а третья модель преобразовывает текст ответа в речь», — рассказывает Петров, такой алгоритм занимает больше времени, а также приводит к упрощениям. Мультимодальные модели (например,GPT-4o, разработанная OpenAI) обрабатывают весь контент без задержек. По словам Петрова, именно за такими технологиями будущее развития ИИ.

Мультимодальные модели могут не только распознавать речь, но и «определять эмоции и сложные невербальные приемы, такие как ирония и сарказм», отмечает гендиректор группы компаний ЦРТ Дмитрий Дырмовский.

 

На прошлой неделе Yandex Cloud (облачная платформа «Яндекса») разрешила клиентам использовать нейросети для классификации текстов, в том числе для обнаружения в них «противоправной информации». В компании отметили, что технология генеративного ответа также позволит бизнесу автоматизировать текстовую коммуникацию с пользователями.

В 2023 году «Яндекс» и «Сбер» запустили свои большие языковые модели (LLM): «Сбер» — GigaChat, «Яндекс» — YandexGPT. В том же году «Сбер» внедрил GigaChat в помощника «Салют» в своих умных колонках, «Яндекс» — YandexGPT в своего виртуального помощника «Алису». В апреле 2024-го «Яндекс» также запустил поиск с помощью искусственного интеллекта «Нейро», который «объединил возможности поиска и больших генеративных моделей».

Мы в соцсетях:

Мобильное приложение Forbes Russia на Android

На сайте работает синтез речи

Рассылка:

Наименование издания: forbes.ru

Cетевое издание «forbes.ru» зарегистрировано Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций, регистрационный номер и дата принятия решения о регистрации: серия Эл № ФС77-82431 от 23 декабря 2021 г.

Адрес редакции, издателя: 123022, г. Москва, ул. Звенигородская 2-я, д. 13, стр. 15, эт. 4, пом. X, ком. 1

Адрес редакции: 123022, г. Москва, ул. Звенигородская 2-я, д. 13, стр. 15, эт. 4, пом. X, ком. 1

Главный редактор: Мазурин Николай Дмитриевич

Адрес электронной почты редакции: press-release@forbes.ru

Номер телефона редакции: +7 (495) 565-32-06

На информационном ресурсе применяются рекомендательные технологии (информационные технологии предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей сети «Интернет», находящихся на территории Российской Федерации)

Перепечатка материалов и использование их в любой форме, в том числе и в электронных СМИ, возможны только с письменного разрешения редакции. Товарный знак Forbes является исключительной собственностью Forbes Media Asia Pte. Limited. Все права защищены.
AO «АС Рус Медиа» · 2024
16+