Машинное обучение для «чайников»: VK запускает сервис для работы с ИИ без опыта в IT
Аналитика Ex Machina
Платформа AutoML, которую запускает VK, позволит бизнес-аналитикам оценить позиции компании на рынке и выстроить стратегию на основе Data Driven-подхода, рассказали Forbes в компании. Сервис поможет также решать маркетинговые задачи: сегментировать аудиторию, определять наиболее рентабельных клиентов, персонализировать коммуникации.
В AutoML доступны модели для решения нескольких типов задач, объясняют в VK: прогнозирования показателей, ранжирования объектов и кластеризации — сортировки данных по группам. С их помощью можно, например, прогнозировать выручку новой точки продаж, оценивать вероятность совершения покупки или сегментировать пользователей сервиса по важным для бизнеса метрикам. Результаты можно применять в реальных проектах и бизнес-задачах, а также дообучать модели на базе новых данных и источников. В будущем на платформе появится больше возможностей для работы с технологиями ИИ, включая интеграцию и тонкую настройку генеративных моделей.
«Допустим, отделу продаж необходимо спрогнозировать отток клиентов. Для этого нужно загрузить на платформу набор данных (дата-сет) об обращениях или заявках в клиентский отдел с набором признаков: количество обращений, время и день заявки, предыдущий опыт взаимодействия, ранее использованные услуги или приобретенные товары, CRM-данные об оттоке клиентов и так далее, — объясняют в VK принцип работы с AutoML. — Платформа проводит очистку данных, аналитик выбирает задачу для решения. Платформа подбирает под нее предобученную ML-модель или их микс (ансамбль). Модели обучаются на загруженных данных и выдают результат по выбранной задаче, которую дальше бизнес может использовать в своей работе».
Примечательно, что AutoML также позволяет партнерам совместно обучать ИИ-модели без обмена данными — платформа поддерживает технологии вертикального федеративного обучения. В этом случае компании могут использовать собственные исходники данных для обучения модели, не предоставляя доступ к ним партнерам. Обмен происходит только зашифрованными промежуточными вычислениями. Это актуально для бизнеса в разных отраслях, включая интернет-торговлю и финтех, говорят в VK.
Например, двум компаниям нужно спрогнозировать рост продаж в рамках партнерского ко-маркетинга с общей аудиторией (это могут быть поставщик продуктов и реселлер или ретейлер и производитель товаров). Чтобы показатели по продажам были наиболее точными, необходимо объединить данные по продажам площадки и поставщика, но это коммерческая тайна. Федеративное обучение позволяет сохранять конфиденциальность бизнес-метрик, при этом обучая модель на безопасных признаках и учитывая больше параметров от обоих партнеров, указывают в VK.
«Применение технологий ИИ и моделей машинного обучения растет во всех отраслях, от IT и медиа до промышленности. Они помогают анализировать массивы данных, определять тренды, строить прогнозы и решать другие задачи. Работать с технологиями вручную становится сложнее, — поясняет директор VK Predict Роман Стятюгин. — Low-Сode и No-Code платформы позволяют автоматизировать обработку массивов информации и быстрее запускать проекты, снижая нагрузку на аналитиков и специалистов по данным».
Low-Code — программирование без спецнавыков с минимальным использованием кода. Согласно общему мнению экспертов, уже через несколько лет рынок разработки будет выглядеть совсем иначе. Так, к 2026 году более 40% организаций будут полагаться на платформы и инструменты Low-Code для создания интеллектуальных пользовательских приложений, затратив на развертывание на 33% меньше усилий, прогнозирует международная исследовательская и консалтинговая компания IDC. Gartner в 2022 году прогнозировала, что к 2024 году уже более 65% разрабатываемых приложений будет построено с помощью инструментов Low-Code, а мировой рынок Low-Code-разработки вырастет на 20% в 2023 году, до $26,9 млрд. Более того, согласно результатам опроса, проведенного Naumen осенью 2023 года, уже 70% компаний в России внедряют решения на основе Low-Code, позволяющие создавать различные информационные системы из готовых блоков, как в конструкторе, с минимальным программированием.
Кому ИИ-аналитику?
Целевой аудиторией AutoML Стятюгин называет любые проекты, стартапы и компании (как крупные, так и средний и малый бизнес), где есть потребность в работе с массивами данных — в анализе, профилировании, выявлении зависимостей, построении прогнозов: «Внутри компании работать с платформой могут аналитики без знаний в Data Science. Или Data Science-специалисты — они могут быстро проверять гипотезы, не тратя время на написание и обучение моделей вручную».
На вопрос о проверенной эффективности AutoML в VK указывают, что платформа позволяет в разы сокращать вывод ML-моделей в продакшен: «Например, в одном из проектов по геоаналитике платформа позволила автоматизировать процесс построения уникальных ML-моделей и сократила время масштабирования проекта с 40 недель до шести — более чем в шесть раз. А в кейсе с построением модели предсказания успеха коммерческих сделок AutoML позволила в 2,5 раза увеличить конверсию заявок в продажи».
Монетизировать платформу VK планирует за счет двух форматов: Self-Service по модели подписки, а также в качестве ядра для создания кастомных решений для крупного бизнеса сегмента enterprise. По оценкам источника Forbes на рынке системных интеграторов, стоимость может зависеть от функциональности платформы и моделей распространения ПО. «В случае с Self-Service инструментами на базе преднастроенных сценариев по модели SaaS (что актуально для среднего бизнеса) стоимость подписки может начинаться от 250 000 рублей в месяц, что в среднем ниже зарплаты Data Science-специалиста, на которого у среднего бизнеса не всегда есть ресурсы и постоянный объем задач, — рассуждает он. — Стоимость же кастомизированного решения с адаптацией под задачи крупного бизнеса и интеграцией в IT-контур заказчика по модели Оn-Рremises может начинаться от 10 млн рублей за проект с последующей оплатой за его поддержку и сопровождение».
Сервис есть — ума не надо
Объем инвестиций в создание AutoML в VK не раскрывают. Оценить его опрошенные эксперты тоже затрудняются. «Вероятно, весьма дорого, — полагает директор по продуктам Content AI Иван Волков. — Причина в том, что для AutoML-решений нужны, с одной стороны, большие вычислительные мощности, с другой — ценные на рынке специалисты. Если же целевая аудитория продукта — «неспециалисты в ML», то задача еще усложняется, так как делать из сложных вещей простые решения могут только хорошо знающие свое дело люди».
В мировой практике существует консенсус относительно того, что такие инструменты не являются полноценной заменой Data Scientist'ам, но эффективно дополняют и автоматизируют часть их работы, рассуждает генеральный директор Института AIRI, профессор Сколтеха Иван Оселедец. «AutoML не даст ответа на вопрос о том, какие данные требуются для решения задачи, где и как эффективно их собрать, какая постановка задачи наиболее всего подходит для решения конкретного бизнес-кейса, — продолжает он. — Но AutoML позволяет ускорить время апробации самих ML-методов при наличии ответов на эти вопросы, а это и правда значительно уменьшает Тime to Мarket».
Безусловно, такие продукты востребованы на рынке, но чтобы дать полноценную оценку, необходимо посмотреть на бенчмарк и оценить производительность библиотеки, обращает внимание технический лидер команды NLP MTS AI Леонид Саночкин. «На мой взгляд, сомнительно измерять эффективность решения по количеству недель на разработку, так как значительная часть работы ML-инженеров — это анализ данных на адекватность. Если речь идет о крупной компании, то писать код с нуля необходимо крайне редко, важно грамотно применить уже существующую кодовую базу», — размышляет он. Вручную грамотный ML-инженер сделает намного лучше, открытые тесты Kaggle — весьма показательный пример, уверен Саночкин: «Особенно это касается таких творческих задач, как создание и разработка признаков, которые будут использованы для обучения ML-модели».
По словам Оселедца, AutoML-решения активно используются внутри больших технологических компаний, в том числе в Росcии, однако они нечасто превращаются во внешние сервисы. Из аналогов на рынке он выделяет Yandex DataSphere, которая также является инструментом AutoML, и фреймворк LightAutoML от «Сбера». Волков также приводит в качестве примеров ряд сервисов: Databricks AutoML и Оpen Source решения, типа AutoGluon или FEDOT: «Но порог входа в них достаточно высокий, и неспециалистам в IT они вряд ли будут доступны». У признанных лидеров в мире IT, таких как Google, Amazon или Microsoft, также есть в числе сервисов инструменты, позволяющие тренировать модели машинного обучения без написания кода и пользоваться такой аналитикой.
Успешность продукта среди целевой аудитории определят такие параметры, как широта решаемых задач — ранжирование, регрессия, классификация и так далее, а также скорость работы методов машинного обучения «под капотом» AutoML, чтобы была возможность найти наиболее качественное финальное решение, перечисляет Иван Оселедец. А кроме того, в доступности решения задач, которыми занимались до сих пор лишь квалифицированные специалисты в штате компаний, и видят эксперты шанс на успех AutoML от VK. «Судя по тому, что декларируется, похоже на попытку создать новый сегмент решений. Теоретически может выстрелить, — считает Иван Волков. — По этой же причине непросто ответить на вопрос, ждут ли этого на рынке: скорее, нет, но в том же смысле, в котором рынок не ждал первый iPhone. Здесь предлагается решение, основная инновация которого — позиционирование на не IT-специалистов».