К сожалению, сайт не работает без включенного JavaScript. Пожалуйста, включите JavaScript в настройках вашего браузера.

Сам себе режиссер: что делать с обучением ИИ, когда данные в интернете закончатся

Фото Getty Images
Фото Getty Images
Интернет оказался совсем не безграничным. Данные для больших языковых моделей (LLM), которые используют алгоритмы машинного обучения, скоро закончатся. Это означает, что бесконечно обучать искусственный интеллект с использованием только данных из интернета не получится. Необходимо искать другие решения. О других способах обучения ИИ в колонке для Forbes рассуждает Даниил Гаврилов, руководитель научных исследований NLP (Natural Language Processing, обработка естественного языка) в лаборатории T-Bank AI Research

Синтетические данные и self-refine

В своем недавнем июньском отчете исследовательский институт Epoch AI прогнозировал, что данных, которые используют для обучения LLM (речь идет о текстовом контенте, когда-либо созданном человечеством), перестанет хватать для этих целей примерно между 2026 и 2032 годом. В условиях, когда данные закончатся, поменяется сама область развития искусственного интеллекта. В настоящее время вся система строится на постоянном увеличении использованных данных, но этот процесс не может быть бесконечным. Уже сейчас большие игроки рынка, например Anthropic, Cohere, Google, начинают искать другие решения. 

Может показаться, что решением проблемы могли бы стать какие-то новые данные, например приватные. Это данные, которые недоступны абсолютно всем, в отличие от общедоступных — форумов, книг, исходного кода на разных языках программирования и многого другого, что используется для обучения языковых моделей. Приватные данные частично или полностью могут быть закрыты настройками приватности, и доступ к ним имеет только их владелец. Например, на платформе Github, которая принадлежит Microsoft, где разработчики и даже компании хранят свой код, часть данных доступна для всех, и ее могут использовать все, а часть данных — приватная, общего доступа к ней нет. Но чисто теоретически Microsoft, как владелец платформы, может использовать ее для обучения своих моделей и тем самым улучшать качество работы своих моделей.

Приватные узкоспециализированные данные, используемые для решения конкретных задач, несомненно, помогут улучшить качество работы ИИ на конкретном участке. Но все понимают, что и эти данные закончатся. Необходимо принципиально иное решение, которое не будет ограничено существующими накопленными знаниями. 

 

Основные направления поисков, которые лежат на поверхности, это синтетические данные и данные, получаемые на основе анализа обратной связи от языковых моделей и корректировки их ответов (self-refine).

Синтетические данные — это данные, которые в той или иной степени созданы самими ИИ-моделями. Пример таких данных — тексты, сгенерированные GPT-4. И хотя раньше считалось, что эти данные всегда низкого качества (раньше это действительно так и было) и их нельзя использовать для обучения новых моделей, то сейчас ситуация меняется. 

 

Пока нет четкого понимания, почему синтетические данные улучшают работу модели, хотя могут содержать в себе изъяны, но есть факт: уже сейчас их активно используют в качестве дополнительного источника для обучения моделей. Более того, если проанализировать открытые данные интернета, то окажется, что с того времени, как его заполонили генерации LLM, например ChatGPT, эти данные стали более качественными и обучение с их использованием приводит к лучшим результатам, чем раньше.

До поры масштабирование будет идти за счет этих данных. Но можно пойти дальше. Есть группа методов, которые можно условно назвать «разблокировкой скрытых возможностей». Один из подходов, использующих этот метод, это Self-Refine, когда модель просят оценить качество своего собственного ответа. Полученную оценку используют для создания нового, более качественного ответа. Это похоже на синтетические данные, так как модель использует собственные данные для улучшения своей работы, но это выглядит скорее как обратная связь, которая помогает корректировать модель и обучать ее. Примечательно, что этот метод помогает добиться лучших результатов у тех моделей, которые до применения этого метода работали хуже. Важно и то, что серия «разблокировка скрытых возможностей» продолжает пополняться новыми методами.

Это похоже на то, как нейросеть от Google AlphaGo, проанализировав данные сотен тысяч игр в го, достигла сверхчеловеческого уровня в self-play. Ожидается, что также и LLM смогут сами себя улучшать и обучать, решая какие-то конкретные задачи. Чисто гипотетически это может привести модель к сверхчеловеческим способностям в решении некоторых задач. Например, если нужно доказать теорему, которую не может доказать человек, то модель долго корректирует сама себя и решает ее. Но это пока из области фантастики. 

 

У этого решения, при всей кажущейся эффективности, есть еще много проблем. Не до конца понятно, как оно может быть реализовано. Модели не могут бесконечно долго улучшать сами себя, и до сверхчеловеческих способностей дойти не так просто. Глава Anthropic Дарио Амодей рассказывал в 2023 году, насколько далеко искусственному интеллекту до сверхчеловеческих способностей, потому что речь идет не только о знаниях, но и о навыках и памяти. С тех пор технологии так и не смогли преодолеть этот барьер.

Поэтому реальным шансом перехода границ, заложенных человеческими знаниями, для модели может стать комбинация синтетических данных и калибровки самой себя. В тот момент, когда человек вложит в модели все, что знает сам, он захочет пойти дальше и решать те задачи, которые пока не умеет решать. Например, создавать автоматических научных исследователей, которые будут способны работать эффективнее, чем огромные исследовательские отделы.

Перезапуск AI-гонки

В результате мир столкнется с перезапуском AI-гонки, когда уже нельзя будет улучшать модели за счет новых данных. Потребуются совершенно новые решения, способные позволить моделям перешагнуть через предел человеческих знаний. 

Старые вендоры LLM могут выпасть из этой гонки или отойти на второй план, если они не найдут способ преодолеть барьер знаний, накопленных человечеством. Значит, появятся новые лидеры, которые сейчас могут находиться на периферии из-за ограниченности ресурсов.

Все это происходило много раз раньше и произойдет снова. Например, в 2018 году Google запустил BERT — модель, обучившуюся на больших (по меркам 2018 года) объемах данных. Эта модель и аналогичные ей, построенные по подобию BERT, определили эпоху ИИ в 2018–2021 годах: исследователи и разработчики брали предобученную модель и обучали ее на своих задачах, тем самым добиваясь лучших результатов, чем если бы модели обучались с нуля. 

 

Сейчас лидером рынка выглядит OpenAI, занимающаяся разработками в области ИИ, хотя в 2017 году компания явно выглядела слабее больших вендоров. По сути, это была просто небольшая лаборатория, хотя и с очень хорошими кадрами и достаточными инвестициями. Многим их разработки казались странными. Но постепенно ее решения изменили рынок и задали тренды в сфере ИИ. 

Может получиться так, что после ухода большого числа ключевых визионеров за продолжительный промежуток времени (Илья Суцкевер основал SSI, Дарио Амодей — Anthropic) OpenAI перестанет концентрироваться на абсолютно новых разработках и сосредоточится на том, что имеет сейчас. 

Новые группы (комбинации людей и технологий из существующих компаний или стартапов) могут быстрее найти решение закончившихся данных и представить новые модели, которые будут на порядок лучше GPT. Например, уже сейчас Anthropic показывает очень любопытные разработки, такие как предобученная модель Claude 3.5, которая сегодня во многом способна конкурировать с GPT-4. В интернете можно найти много отзывов пользователей, которые считают, что разработка Anthropic лучше решает их конкретные задачи, чем модель OpenAI. Но при этом мы все еще находимся в эре обучения на данных из интернета. 

Пока  предобучение LLM в основном строится на добыче данных из интернета, данных как общего характера, так и узкоспециализированного. Но эти ресурсы рано или поздно закончатся, что создаст большую проблему для последующего улучшения качества моделей. Компаниям, занимающимся ИИ, уже сейчас надо вкладываться в поиск решения этих проблем. Новыми лидерами среди компаний в гонке за создание ИИ станут те, кто найдет эти новые решения раньше других. 

 

Мнение редакции может не совпадать с точкой зрения автора

Мы в соцсетях:

Мобильное приложение Forbes Russia на Android

На сайте работает синтез речи

Рассылка:

Наименование издания: forbes.ru

Cетевое издание «forbes.ru» зарегистрировано Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций, регистрационный номер и дата принятия решения о регистрации: серия Эл № ФС77-82431 от 23 декабря 2021 г.

Адрес редакции, издателя: 123022, г. Москва, ул. Звенигородская 2-я, д. 13, стр. 15, эт. 4, пом. X, ком. 1

Адрес редакции: 123022, г. Москва, ул. Звенигородская 2-я, д. 13, стр. 15, эт. 4, пом. X, ком. 1

Главный редактор: Мазурин Николай Дмитриевич

Адрес электронной почты редакции: press-release@forbes.ru

Номер телефона редакции: +7 (495) 565-32-06

На информационном ресурсе применяются рекомендательные технологии (информационные технологии предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей сети «Интернет», находящихся на территории Российской Федерации)

Перепечатка материалов и использование их в любой форме, в том числе и в электронных СМИ, возможны только с письменного разрешения редакции. Товарный знак Forbes является исключительной собственностью Forbes Media Asia Pte. Limited. Все права защищены.
AO «АС Рус Медиа» · 2024
16+