Разработчик Rubbles запускает свою платформу генеративных моделей ИИ
Выход на платформу
Rubbles запускает платформу генеративных моделей ИИ для компаний с повышенными требованиями к безопасности данных, рассказали Forbes в компании. На первом этапе инвестиции в разработку составили более 100 млн рублей. «В системе собраны лучшие международные открытые технологии ИИ, которые отвечают запросам любой отрасли бизнеса: ретейла, банков, телекома, медицины, тяжелой промышленности и других», — заверяют в Rubbles.
Особенность Rubbles Generative AI Suite в том, что она интегрируется в инфраструктуру заказчика в формате on-premise, то есть на сервер клиента, а не в облако, на базе которого построено большинство существующих популярных решений. «Такой подход гарантирует полный контроль над данными и работой сервисов, созданных на их основе. Это ключевой фактор при выборе системы в компаниях, которым важно, чтобы данные не покидали внутренний контур и не попали в руки третьей стороны», — объясняют в компании. Сейчас платформу тестируют в закрытом бета-режиме три компании-заказчика, но их названия разработчик не раскрывает.
Технологии генеративного ИИ могут решать массу бизнес-задач, считают в Rubbles. Например, с их помощью можно создать чат-бот для быстрого и интерактивного поиска информации по внутренним документам корпорации. «Чтобы взять справку НДФЛ-2, например, и другие документы или справки, сотрудник может написать в чат-бот, а не проходить все этапы бюрократии», — объясняют в Rubbles. Другим примером, продолжают там, может стать использование текстового ИИ для цифрового маркетинга, который можно настроить под языковой стиль компании, чтобы «отстроиться» от конкурентов — то есть ИИ может создать текст или описание картинок товаров (например, для тех же карточек на Wildberries), основываясь на tone of voice («голос бренда») компании. Еще одно популярное направление — создание помощников (copilot) для разработчиков ПО, что кратно ускоряет написание типового программного кода. «Применение генеративного ИИ в бизнесе не ограничивается этими примерами — спектр задач, в решении которых он может помочь, намного шире», — заключают в компании.
Платформа активно пополняется новыми open-source моделями — уже сейчас проанализировано более 100 моделей со всего мира и регулярно исследуются новые с фокусом на text-to-text и text-to-image нейросетях (аналоги ChatGPT и Midjourney). Процесс подготовки моделей включает отбор по метрикам качества и адаптацию под работу с запросами на русском языке. Монетизировать платформу команда намерена за счет продажи бизнесу лицензии по подписке, но сколько она будет стоить, там не комментируют, объясняя тем, что платформа кастомизируемая и модели подстраивают под задачи конкретного бизнеса. Кроме того, Rubbles Generative AI Suite сейчас проходит регистрацию в реестре отечественного ПО, что в компании считают важным для заказчиков из госсектора.
Справочное бюро
Rubbles разрабатывает IT-решения для оптимизации ключевых технологических и бизнес-процессов на основе анализа данных и ИИ, продавая их крупным клиентам. Проект в 2014 году основали выходцы из «Яндекса» Никита Блинов, Владислав Лисицкий и Александр Фонарев. На запуск прототипа платформы они потратили 2 млн рублей из собственных накоплений. Изначально стартап фокусировался на банках — его первыми клиентами стали российский провайдер платежных и финансовых сервисов Qiwi и Альфа-банк. Сейчас среди его клиентов — банки, розничные сети, фармацевтические компании, нефтегазовые предприятия, компании горно-металлургического комплекса, в их числе «Тинькофф», «МегаФон», Райффайзенбанк, «Сбер», ВТБ, «Газпром нефть», «Утконос» и т. д.
В 2016 году компания подняла первый раунд инвестиций в размере $1,5 млн от фонда FinSight Ventures, один из основателей которого — Виктор Ремша, создатель «Финама». В 2021 году Rubbles привлекла $6 млн от «Эльбрус Капитала» и FinSight Ventures в том числе на международную экспансию, но отложила эти планы из-за нестабильной геополитической обстановки, а годом позже в компанию вложил 200 млн рублей МТС. По данным «СПАРК-Интерфакс», выручка ООО «Раблз» с 2018 года выросла с 45,6 млн рублей до 383,6 млн рублей по итогам 2022-го, но вырос и чистый убыток — до более чем 161 млн рублей.
Контурные карты
Генеративные модели ИИ в текущих реализациях — достаточно новая технология, устоявшихся подходов к обеспечению их информационной безопасности пока нет, констатируют в «Инфосистемах джет». Фактически, если вы хотите решить свою бизнес-задачу с помощью облачного сервиса (например, облачной генеративной модели ИИ), вам придется безвозвратно отдать туда свою информацию, говорят там. «Как она будет там храниться, смогут ли другие пользователи получить к ней доступ, будет ли она использоваться для обучения модели — на эти вопросы пока нет четких ответов. Если все компоненты и данные в инфраструктуре организации, а не в облаке, то это снимает вопросы. Но при этом остаются и другие сложности: на каких данных обучена модель, насколько точны ее ответы, мог ли кто-то заранее повлиять на процесс обучения модели так, чтобы она выдавала неточные ответы, ведущие к неправильным управленческим и другим решениям? — перечисляют в компании. — Иными словами, насколько мы вообще можем доверять чужим моделям. На все эти вопросы индустрии только предстоит найти ответы и выработать механизмы контроля».
Сегодня при выборе между решениями on-premise или cloud крупные заказчики все еще склоняются к первому варианту, говорят участники рынка. Эта тенденция может сохраниться еще какое-то время, несмотря на прогнозируемые трудности с доступом к качественной аппаратной инфраструктуре, рассуждает генеральный директор Content AI Светлана Дергачева. Она напоминает, как на недавней конференции «Цифровая индустрия промышленной России» эксперты подтвердили, что в сфере промышленности компании готовы переводить в облако лишь части IT-инфраструктуры, которые не затрагивают критически важных объектов и процессов: «Для большого круга заказчиков возможность размещения решений on-premise может выглядеть привлекательно».
Развитие генеративных сетей, по мнению Дергачевой, для собственных нужд компании предпочитают также вести во внутреннем контуре без страха утечки чувствительных данных, которые используются во внутренних дата-сетах. «Что касается уникальности решения, то подобного рода платформы существуют довольно давно. Свежий пример — Project Helix, совместный проект Dell Technologies и Nvidia, который будет помогать компаниям создавать модели генеративного ИИ с размещением их в дата-центрах на стороне клиентов, — указывает Дергачева. — Российские вендоры движутся в русле мировых тенденций, и для отечественного рынка такая история может стать перспективной».
Как правило, возможность установки генеративных моделей в контур крупных корпоративных заказчиков связана с законом о персональных данных и наличием у компаний большого объема чувствительной и конфиденциальной информации, которую они не готовы отдавать в сторонние дата-центры, объясняет сооснователь Just AI Кирилл Петров. У Just AI для облачного и локального хостинга моделей есть платформа CAILA, на ней уже развернуты генеративные модели, тот же Stable Diffusion или большая языковая модель Saiga. «Наши модели синтеза и клонирования речи мы тоже ставим в контур заказчиков. «Яндекс» и «Сбер» также разработали и продолжают тренировать собственные большие языковые модели, но они пока также отстают от разработки Open AI. Хотя, насколько мне известно, как минимум один из этих крупнейших российских IT-игроков рассматривает возможность установки своей модели в дата-центре клиентов. Just AI работает над тем же самым — мы сегодня тренируем сразу три большие языковые модели, но не с нуля, а взяв за основу наилучшие из существующих моделей с открытым кодом», — говорит Петров.
Решение интересно своей комплексностью (набор разнородных моделей), но его революционность предстоит проверить на практике, осторожен в оценках руководитель практики комплексной цифровизации процессов Naumen Никита Кардашин. При этом многие компании, по его словам, готовы предоставлять свои ИИ-компоненты и по on-premise модели, в том числе Naumen. «Само по себе это не «гейм-чейнджер» на рынке, гораздо интереснее, как будет организован процесс дообучения и обновления моделей, а также в целом уровень их качества. Большая часть передовых разработок в этой сфере либо охраняется авторским правом, либо требует для своего обучения значительных мощностей и объемов данных, которые, скорее всего, недоступны рядовым российским разработчикам», — замечает Кардашин.
Перспективы включения в реестр отечественного ПО могут быть как туманными, так и вполне ясными, полагает эксперт. «В зависимости от того, что конкретно будет продаваться и включаться в реестр в качестве продукта: сами модели (тогда шансы весьма низки, после последнего ужесточения политики реестра включить туда open source ПО без значимых доработок компании-заявителя уже не выйдет) или механизм управления, развертывания и обновления (для его включения я препятствий не вижу, если это действительно российское ПО)», — заключает он.
У генерального директора компании Smart Engines (разработчик AI-системы распознавания документов), кандидата технических наук Владимира Арлазарова проект вызвал несколько вопросов. «Открытые модели доступны прямо в исходных кодах и зачастую даже доступны данные для обучения. Таким образом, все эти модели можно использовать on-premise. В чем тогда ценность платформы?» — отмечает Арлазаров. С другой стороны, продолжает он, большинство открытых моделей обычно сопровождается научными публикациями, которые верифицированы мировым научным сообществом. «Любая научная статья проходит серьезное рецензирование, где ученые, квалифицированные специалисты, проверяют достоверность приведенных в статье сведений. Таким образом, они фактически верифицируют результат. Какие эксперты будут привлечены для верификации этих моделей и чем эти эксперты будут лучше, чем признанные международные ученые?» — рассуждает Владимир Арлазаров.