Бот знает: как устроены языковые модели и к чему ведет конкуренция на этом рынке

Татьяна Шаврина Автор

ChatGPT стал самым быстрорастущим потребительским приложением в истории: всего через два месяца после запуска месячное количество активных пользователей бота достигло 100 млн человек. 6 февраля сразу две корпорации объявили о скором запуске собственных аналогов: Google анонсировала экспериментальный сервис разговорного ИИ Bard, а акции китайской Baidu выросли после заявления о релизе разработки под названием ERNIE. Кандидат наук, руководитель научной группы NLP Института искусственного интеллекта AIRI и команды AGI NLP SberDevices Татьяна Шаврина объясняет, из чего состоят разговорные боты, чего ждать от многообещающих новинок и какое влияние они окажут на общество

Большие языковые модели (LLM, Large Language Models)

Несмотря на взрывную популярность ChatGPT и гонку корпораций, языковые модели — далеко не новое явление. LLM — нейросетевые модели, которые позволяют обобщать, понимать и писать тексты на разных языках. Нейросеть выучивает язык во время обучения, при котором ей «показывают» огромное количество художественной литературы, интернет-форумов, энциклопедий и других источников, хорошо представляющих человеческий язык во всем его многообразии. Такие нейросети находятся внутри продвинутых ИИ-ассистентов, позволяя нам общаться с машиной.

Большими языковые модели называются потому, что, помимо массивного объема прочитанного, сами по себе являются масштабными системами. Профессионалы определяют размер моделей в параметрах (коэффициентах функций внутри модели), подобранных во время обучения нейросети: число параметров нейросети GPT-3 — 175 млрд, но бывают LLM и больше! Как правило, чем больше параметров у нейросети, тем лучше она обобщает навыки и знания. В случае с СhatGPT это навыки понимания человеческих инструкций в режиме диалога и выдачи качественного и интересного ответа.

LLM добились успеха в ряде задач: они отвечают на вопросы, могут обобщить или переписать текст, написать стихотворение и вести диалог. Пожалуй, в 2022 году именно переход самых новых нейросетей в режим диалога с пользователем позволил моделям стать интересными не только для ученых и разработчиков.

Максимально правдоподобное и безопасное моделирование общения на человеческом языке — вызов для исследователей. Среди основных проблем в работе с LLM профессор Стэнфордского университета Кристофер Поттс выделяет сложность обновления базы фактов, на которых обучена модель, и отсутствие ссылок на источники.

А еще у LLM есть «дети» — так называемые дообученные модели (fine-tuned models). На базе общетематических моделей создается копия, которую «натаскивают» на специфический домен или задачу, например анализ медицинских исследований или поиск ошибок в коде. Процесс такого дообучения нейросетей называют «тюнинг».

Материал по теме

Какие модели существуют уже сейчас

ChatGPT — самая популярная демонстрация большой языковой модели, которая стала открытой для рядового пользователя сети через простой интерфейс. Однако такое решение — не единственное. В мире существует ряд других LLM, часть из которых давно выложена в открытый доступ. Их изучают, развивают и применяют для решения своих задач сотни программистов и ученых, а некоторые стартапы строят на их базе собственные продукты:

1) BLOOM от HuggingFace и BigScience. Эта многоязычная модель с открытым исходным кодом разработана свободным консорциумом более чем из 1000 исследователей искусственного интеллекта. Среди участников проекта есть и российские ученые: свой вклад в разработку внесли сотрудники научной группы «NLP» Института искусственного интеллекта AIRI и их коллеги из команды AGI NLP SberDevices.

2) GPT-3 от OpenAI. Прародитель СhatGPT, модель GPT-3 обучена эффективно и правдоподобно продолжать тексты, предсказывая по началу следующие слова, предложения и целые абзацы.

3) BlenderBot3 от Meta (организация признана экстремистской и запрещена в России). Общедоступный чат-бот, выпущенный с кодом и данными для использования.

4) MT-NLG от Microsoft и Nvidia. Одна из крупнейших моделей для понимания прочитанного и вывода на естественном языке. Исходный код и данные для работы находятся в открытом доступе.

5) Sparrow от DeepMind. Диалоговый агент, обученный на основе обратной связи от пользователя. Создан с целью снизить риск появления небезопасных и неуместных ответов, но пока еще закрыт для пользователей.

6) LaMDA от Google. Та самая модель, что якобы убедила инженера в своей разумности. В маркетплейсе приложений Google Play доступна лишь AI Test Kitchen — сильно ограниченная демоверсия модели. Несмотря на это, именно LaMDA станет основой для конкурента ChatGPT Bard.

7) PaLM от Google. Обучена на 540 млрд параметров и, по словам создателей, обеспечивает очень высокую производительность. Доступна только для разработчиков корпорации.

8) OpenAssistant от LAION. Модель, над развитием которой прямо сейчас работает открытое сообщество исследователей ИИ, специалистов Data Science и программистов. Авторы хотят сделать диалоговый бот не только открытым, но и достаточно компактным для работы на домашних компьютерах и телефонах.

Материал по теме

Как сравнивают модели

Вопреки ожиданиям, модели оценивают не только по размеру. Чтобы корректно оценивать подобные системы, необходимо определить их технические характеристики. Основные критерии для валидации диалоговых языковых моделей, ориентированных на выполнение инструкций пользователя, — это:

— качество получаемого результата на прикладных задачах. Осмысленность и конкретика;

— безопасность. Выдает ли модель социально опасные, предвзятые или агрессивные материалы? Если модель открыта, предполагает ли она согласие с правилами использования?

— используется ли в модели технология обучения с подкреплением на основе отзывов людей, можно ли дать модели обратную связь про удачные и неудачные ответы?

— размер использованного для обучения датасета.

Материал по теме

Конкуренция между OpenAI и поисковыми сервисами

Разработки OpenAI сопровождаются крупными пиар-кампаниями. Широко известны GPT-3, DALL-E 2, ChatGPТ сейчас и, судя по всему, GPT-4 в обозримом будущем. Но сделали ли в OpenAI нечто прорывное и новое с технологической точки зрения? Научная новизна ChatGPТ складывается из ряда экспериментов по совмещению GPT-3 и обучения с подкреплением, которое позволяет передать языковой картине мира внутри GPT-3 желаемые человеческие ценности с помощью подкрепления хорошими примерами правдивых, непредвзятых, развернутых и интересных ответов. Очевидно, что в компании провели большую серию экспериментов, только часть из которых представлена общественности. Сложно назвать разработку совершенно новой, но стремление разных команд ее повторить оправданно.

Поисковики и в предыдущие годы спокойно переваривали все технологические новинки, встраивая их в свой стек. Пять лет назад появилась нейросеть BERT. Она понимает словоформы и синонимы, учитывает последовательность и контекст слов в предложениях. Такие нейросети сразу стали использовать в поисковиках, чтобы улучшить релевантность результатов и понимание пользователя. Среднестатистический пользователь не замечает, что именно работает «под капотом»: большая языковая модель наподобие GPT, нейросеть BERT или просто поиск по ключевым словам. Главное, чтобы нашелся подходящий ответ.

Microsoft уже подтвердилa появление LLM в своей поисковой системе. Основа обновленного браузера Bing — улучшенная версия языковой модели, лежащей внутри ChatGPT. Компания обещает, что в скором времени юзеры Bing смогут выбирать между традиционной поисковой системой и новой версией с ИИ-ассистентом, который работает на 100 языках и понимает запросы до 1000 символов.

Нашумевший ChatGPT не умеет получать новые данные в реальном времени и ограничен набором, на котором его обучали в 2021 году. Именно поэтому самая многообещающая характеристика новинок — умение использовать в работе свежую информацию. В Google утверждают, что Bard сможет брать данные прямо из интернета, а поисковик Microsoft уже смог ответить журналистам на вопросы о своем релизе через час после события.

В любом случае конкуренция всегда приносила пользу науке. Если Google или Baidu выпустят принципиально новые архитектуры, влияние на адаптивность технологий будет положительным. А вот какая организация сможет создать на основе этих технологий самые удобные и коммерчески успешные продукты — покажет время.

Первый вопрос, который стоит поднять в контексте экономических перспектив бурного развития языковых моделей и технологий ИИ, — это риск появления «технологических монополий» и необходимость изучить возможности регулирования рынка. Внутри искусственного интеллекта идет активная гонка, в которой большинство ресурсов получает тот, кто первым реализовал и довел до пользователя новую технологию. Крупные компании это прекрасно понимают. OpenAI первыми выпустили GPT-3, DALL-E2 и теперь — ChatGPT, который уже стал самым быстрорастущим приложением в истории человечества. Станут ли они первыми, кто сделает сильный и универсальный искусственный интеллект? Это неизвестно, но очевидно, что тот, кто первым реализует технологию, сможет выбирать, кому и в каком объеме предоставлять к ней доступ.

Итог передела зон влияния между крупными игроками на рынке поисковых систем прямо сейчас предсказать сложно. С внедрением технологий OpenAI в Bing Microsoft вырвался вперед с инновационной точки зрения, но не стоит забывать, что Google владеет значительно большей частью рынка мирового поиска. По оценкам на январь 2023 года, она достигала 92%.

Тем временем интересы новых игроков, растущих IT-компаний, не сочетаются с потребностями уже существующего крупного бизнеса. Важно то, что у Google, Microsoft и прочих есть ресурсы для борьбы. Например, недавно Getty Images подала в суд на разработчика нейросети Stable Diffusion Stability AI. В компании считают, что использование их картинок для обучения алгоритмов создало конкурирующий бизнес с помощью их ресурсов, и требуют огромную материальную компенсацию.

Материал по теме

Угроза профессиям?

Активное внедрение ИИ-инструментов такого рода можно ожидать в сферах продаж, автоматизации промышленных процессов и креативных индустриях. С появлением новых инструментов мы увидим рывок в росте производительности труда и новую промышленную революцию. В этом контексте следует рассуждать не об исчезновении профессий, а об их трансформации. Первое, о чем необходимо помнить любому человеку для обеспечения своей экономической безопасности, вне зависимости от сферы деятельности, — это необходимость постепенно поднимать уровень компьютерной грамотности и учиться обращаться с новыми инструментами.

Когда появились большие генеративные модели, создающие изображения и тексты, многие пророчили сокращения на рынке креативных профессий — дизайнеров, художников, копирайтеров. Важно понимать, что ИИ не заменит креативщиков, но в обозримом будущем может стать угрозой для креативщиков, которые не умеют им пользоваться. Все-таки на данном этапе технологии искусственного интеллекта — это инструмент.