Распознавание с умом: в России разработана первая мультимодальная модель ИИ
Изобразительное искусство
Как сообщили Forbes в научно-исследовательском Институте искусственного интеллекта AIRI, OmniFusion — мультимодальная модель ИИ, предназначенная для расширения возможностей традиционных систем обработки языка за счет интеграции дополнительных модальностей данных, например изображений, а в перспективе — аудио, 3D- и видеоконтента. Ее обучением занимается научная группа FusionBrain Института AIRI при участии ученых из Sber AI и SberDevices. Модель распознает и описывает изображения, с ее помощью можно объяснить, что изображено на фото, узнать рецепт для приготовления блюда по фотографии ингредиентов, проанализировать карту помещения или узнать, как собрать устройство по фото отдельных его частей, приводят примеры в AIRI.
OmniFusion также умеет распознавать текст и решать логические задачи. Например, с ее помощью можно решить написанный на доске математический пример или распознать формулу, а также получить их представления в формате LaTeX (ПО, в котором работают ученые, в том числе из сферы ИИ и компьютерных наук, математики, позволяет проще и удобнее работать с длинными и сложными формулами). «Спектр возможностей широкий: уже сейчас модель может проанализировать медицинское изображение [снимок] и указать на нем какую-то проблему. Разумеется, чтобы подобная модель помогала ставить диагнозы, ее необходимо дополнительно обучать на профильных датасетах с привлечением экспертов из медицины», — указывают в AIRI.
OmniFusion — первая в России мультимодальная модель, настаивают в AIRI. Среди зарубежных аналогов на рынке представлены, например, LLaVA, Gemini, GPT4-Vision, а также китайские модели Qwen, DeepSeek и LVIS, поясняют в AIRI: «Часть из этих моделей относится к числу проприетарных, то есть находится в закрытом доступе, и судить о метриках качества таких моделей можно только на основе опубликованных компаниями цифр или посредством платных API. GPT4-Vision и Gemini уже встроены в продуктовую линейку чат-ботов от OpenAI и Google. В отличие от платных моделей, среди open-source решений можно также найти достойные аналоги — такие как LLaVA и Multimodal-GPT». Эксперименты по оценке качества показали: OmniFusion «достигает высоких результатов» в большинстве бенчмарков, не уступая зарубежным моделям, которые в том числе построены на более крупных языковых моделях (например, LLaVA-13B).
В России уже работают модели, предназначенные для синтеза изображений по текстовым описаниям, — например, Kandinsky от «Сбера» или YandexArt от «Яндекса». Это диффузионные модели, которые «расшифровывают» числовые представления текста в изображения, здесь на вход подается текстовое описание, а на выходе появляется изображение. «Мультимодальная же архитектура — это модель, в основе которой находится LLM, она специальным образом учится анализировать изображения, чтобы описывать их (превращать в текст), отвечать на различные вопросы по изображениям и т. д. То есть она их понимает. В подобной архитектуре в качестве входа сейчас выступают одновременно изображения и текст, а может быть и видео, и аудио. А на выходе — текст», — поясняют разницу в AIRI.
В основе open-source версии OmniFusion 1.1 лежит языковая модель Mistral, она находится в открытом доступе и имеет самые лояльные лицензии для проведения научных экспериментов, указывают в AIRI: «Однако в «ядро» OmniFusion можно поместить абсолютно любую большую языковую модель — и проприетарную, и открытую, и обученную на любом языке — главное, чтобы это была LLM».
Прецедентное право
Опрошенные Forbes эксперты признают: это действительно первая модель такого рода в России. «На данный момент нам неизвестно о мультимодальных LLM, разработанных именно в России, таким образом, в AIRI создали первую такую модель», — говорит сооснователь Just AI Кирилл Петров. «Подобного решения в России нет, но такое сделать несложно, потому что оно на основе готовой модели», — утверждает старший инженер-исследователь MTS AI Георгий Гайков.
По мнению директора Центра ИИ «Сколтеха» Евгения Бурнаева, на основе этой модели можно строить индустриальные приложения, например для автоматического описания товара или для описания медицинских снимков. «Конечно, еще придется «дособрать» обучающую выборку из соответствующего домена (т. е. области знаний или сферы применения модели. — Forbes), чтобы донастроить модель, но, тем не менее, уже за счет накопленной в модели информации требуемый размер выборки будет значимо меньше», — говорит он.
Мультимодальные модели «открывают новые возможности» для анализа информации и выводов по ней, рассуждает Петров. «Кейсов много, одним из них является поиск. Большие языковые модели в целом оказались весьма эффективными в поиске и ответах по данным из баз знаний, — продолжает он. — Но данные зачастую хранятся не только в текстовых форматах. Это могут быть тексты, смешанные с изображениями, диаграммами, таблицами, причем иногда вообще в виде сканов. В таких ситуациях мультимодальные модели незаменимы — они могут дать четкий ответ, ориентируясь во всем многообразии сложных данных».
В дальнейшем OmniFusion сможет стать хорошим подспорьем для «новоделов» рынка и ИИ-сообщества в целом, считает сооснователь и CEO лаборатории Neuraldeep.tech (NDT, входит в группу компаний red_mad_robot) Валерий Ковальский: «Важно отметить — если модель обучали на кириллице, это может дать толчок к развитию мультимодальных моделей в России».
Где применять
Такие модели могут найти свое применение в ретейле, контент-мейкинге, дизайне, на маркетплейсах для оптимизации рутины, размышляет руководитель направления Data Science в «Битрикс24» Александр Сербул. «Или, предположим, пользователь говорит: «Дай мне текст из этого образа». Далее текст добавляют в базу данных и по нему ищут, например, роликовые коньки. И она тебе отдает все эти картинки, которые последний раз появлялись», — приводит пример эксперт.
«Мы, например, анализируем возможные улучшения на сайтах, сканируем с помощью таких моделей презентации и получаем выводы, — приводит примеры использования таких моделей в IT-разработке Кирилл Петров. — Еще один пример — мультиагентные системы с визуальной обратной связью: модель, например, пишет код, запускает его, потом анализирует происходящее на экране, тестирует интерфейс и принимает решение по изменениям кода на основе результата и полученной информации об ошибках». В дальнейшем, по его мнению, это еще значительнее улучшит возможности ИИ по разработке софта, которые уже и сейчас «весьма впечатляющие». «По мере расширения модальностей, добавления аудио, звука, речи возможности применения в бизнесе будут расти и дальше», — отмечает Петров.
При этом вопрос качества модели нужно оценивать «в контексте бизнеса», обращает внимание Сербул. «Чтобы в бизнесе «выехать» с такой нейросетью, нужен гигантский объем качественно размещенного контента для обучения. Контент находится только у поисковых провайдеров. Например, Google или Microsoft. Важно не то, у кого гениальные математики, а у кого есть контент. Даже если есть модель, ее надо минимум полгода обучать, а размеченных данных, отражающих контекст бизнес-применения, чаще всего нет», — предостерегает он.
Бизнес-план
Расходы на развитие ИИ в России в мировом масштабе составляют всего 0,2% (650 млрд рублей против $432 млрд). «Однако потенциал для развития технологии и ее применения — колоссальный, — пояснял ранее Forbes генеральный директор «Наносемантики» Станислав Ашманов. — Поэтому идею «драйвят» на самом высшем уровне». Так, в прошлом году президент поручил обновить Национальную стратегию развития ИИ до 2030 года, а также поставил задачу интегрировать ИИ во все отрасли экономики и социальную сферу.
Власти уделяют теме развития ИИ самое пристальное внимание. Решения на его базе все чаще становятся темой выступлений первых лиц государства и признаются мощным ресурсом для роста эффективности бизнес-процессов в самых разных отраслях. Многие компании в России уже распробовали преимущества ИИ в своей деятельности. Так, 94% компаний, которые начали применять ИИ-технологии для выполнения бизнес-задач, считают, что это позволило им сократить затраты, следует из результатов совместного исследования консалтинговой компании «Яков и партнеры» и «Яндекса». По данным этого же отчета, эффект от внедрения ИИ к 2028 году может достичь 4,2-6,9 трлн рублей, что эквивалентно влиянию на ВВП до 4%.
Более того, мероприятия по развитию ИИ, которые предусматривает нацпроект «Экономика данных», могут прибавить к 2030 году более 11 трлн рублей к ВВП России. Для их реализации предполагается привлечь около 400 млрд рублей бюджетного финансирования, следует из материалов к нацпроекту. Среди ожидаемых эффектов к 2030 году — рост объема услуг в этой сфере до 60 млрд рублей в год, доля отраслей с высоким уровнем внедрения ИИ составит 95%. Такие данные содержались в презентации, с которой в ноябре 2023 года министр цифрового развития Максут Шадаев выступал на стратсессии в правительстве.