Четвертое измерение: что умеет новая языковая модель от OpenAI GPT-4
Эволюция языковых моделей
Бурное развитие умных языковых ботов началось с довольно простой мысли: в виде текста можно представить огромное количество задач, а значит, можно научить модели ИИ эти задачи решать. В 2017 году появились трансформерные архитектуры, способные обучаться на больших объемах текстов. Чуть позже ученые совместили обучение с подкреплением (Reinforcement learning, RL, технология, которая позволяет «хвалить» программу за правильные действия и «наказывать» за неправильные) с большими языковыми моделями, такими, как GPT-3 (Large Language Models, LLM). Получился ChatGPT.
Представьте себе игру в шахматы: подкрепление в ней — это результат игры. Компьютерному агенту на основе искусственного интеллекта необходимо научиться делать ходы, которые приведут к победе. Люди способны действовать с подкреплением, удаленным на годы вперед, например, долго и усердно трудиться в школе и университете, чтобы получить первую зарплату. Компьютеру сложно выполнять длинные последовательности действий для достижения итогового результата, и разработчикам приходится учить ИИ «заглядывать вперед» при выборе следующего шага. Исследователи начали обучать модели, способные отвечать на вопросы человека и интегрировать в них огромные объемы человеческой обратной связи.
Среди основных прорывов, полученных исследователями в последнее время, можно отметить:
· Toolformer, LLM от Meta (признана в России экстремистской организацией и запрещена): исследователи научили большие языковые модели обращаться к внешним инструментам (веб-поиску, переводчику, калькулятору).
· LLaMA, LLM от Meta: ученые доказали, что объем данных для обучения модели важнее, чем ее сложность. Более легкие по вычислительным ресурсам модели с большими выборками обучающих данных обошли большие модели в качестве решения прикладных задач.
· ChatGPT на Bing научился указывать источники тех или иных фактов, которые он приводит в ответе на вопрос.
Плюсы и минусы нового движка
GPT-4 — последняя из больших языковых моделей семейства GPT от OpenAI: GPT-2, GPT-3 и GPT-3.5, которая легла в основу первой версии популярного бота ChatGPT. Модель состоит из большого количества нейросетей, которые умеют обрабатывать, понимать, анализировать, интерпретировать и генерировать тексты на естественном языке. Несмотря на то что четвертая версия модели понимает 28 языков, включая малоресурсные валлийский язык и урду (близкий к хинди язык индоевропейской семьи), наилучшие результаты по-прежнему можно получить, используя для создания промптов (так называются фразы-запросы к модели) английский.
GPT-4 прошел проверку эффективности на множестве экзаменов — как академических, так и профессиональных. Порой работы модели превосходили результаты большинства параллельно тестируемых людей. Например, на смоделированном экзамене для адвокатов (Uniform Bar Examination) GPT-4 оказалась среди 10% лучших участников теста, в то время как ChatGPT оказался среди худших 10%. Кроме того, согласно данным технического отчета OpenAI, сгенерированные GPT-4 ответы нравились тестовой группе пользователей в 70,2% случаев чаще, чем ответы GPT-3.5. Впрочем, по словам самих создателей, разница между ответами от двух версий бота может показаться незаметной в процессе работы с интерфейсом.
Наиболее важная и интересная часть свежего релиза — мультимодальность, одновременная работа с разными форматами представления данных. GPT-4 умеет принимать на вход и текст, и изображения. Благодаря этому функционалу пользователь может отправить боту любую зрительную или языковую задачу. В частности, модель генерирует текстовые выходные данные, учитывая входные данные, состоящие из произвольно чередующихся текстов и изображений. В ряде доменов, включая текстовые документы с иллюстрациями, диаграммы или скриншоты, GPT-4 демонстрирует те же возможности, что и при вводе в нее только текста.
Модель может интерпретировать картинки и «понимать» шутки. Разумеется, не как человек в прямом смысле этого слова. Бот анализирует изображение и пытается сгенерировать наиболее ожидаемую от среднестатистического пользователя сети реакцию. Разработчики показали модели пост пользователя Reddit, который поделился с сообществом неоправданно большой зарядкой для мобильного телефона. На вопрос о том, почему фотографии могут быть смешными, модель ответила: «На изображении показана упаковка для адаптера Lightning Cable. Смартфон с разъемом VGA (большой синий 15-контактный разъем, обычно используемый для компьютерных мониторов), подключенный к порту зарядки с небольшим разъемом Lightning (используется для зарядки iPhone и других устройств Apple). Юмор на этом изображении исходит из абсурдности подключения большого устаревшего разъема VGA к маленькому современному порту для зарядки смартфона».
Важной задачей проекта была разработка инфраструктуры и методов оптимизации вычислительных мощностей. Это позволило создателям заранее предсказать определенные аспекты точности GPT-4 на основе моделей, обученных на менее чем 1/1000 вычислительных ресурсов GPT-4.
Несмотря на значительное улучшение качества работы нового «движка» по сравнению с предыдущими версиями, ряд фундаментальных проблем остается нерешенным. GPT-4 не умеет обращаться к внешней памяти, искать информацию в интернете и хорошо считать, а значит, часто «галлюцинирует», то есть очень правдоподобно генерирует неверную информацию. Кроме того, модель по-прежнему не знает ничего о том, что произошло в мире после сбора данных для ее обучения.
На графике можно увидеть оценку знаний разных версий GPT по навыкам обучаемости, знанию технологий, умению писать, представлений об истории, математике, науке, написании кода, выдаче рекомендаций и способности разбираться в бизнесе.
Закрытый «Открытый AI»
В феврале 2023 года OpenAI обнародовал новую стратегию развития и отказался от публикации архитектур своих разработок в открытом доступе. Получить API к «четверке» можно в двух случаях: для исследовательских целей компания предоставляет персональный доступ к модели по заявке в формате очереди, а разработчики могут получить доступ по подписке. Цена платного доступа составляет $0,03 за 1000 токенов-промпта и $0,06 за 1000 токенов результата. И тот, и другой объем равняются примерно 750 словам. Токены — это необработанный текст, например, слово «технологичный» будет разделено на токены «техно» и «логичный». Токены промпта — это части слов, переданные внутрь GPT-4, а токены результата — это сгенерированные моделью ответы. На данный момент доступ к коммерческому использованию модели ограничен для России.
Итак, помимо информации о метриках качества из отчета компании мы знаем, что GPT-4:
· Это «трансформерная» модель
· Обучена как на публичных данных из интернета, так и на приватных данных под лицензией создателей
· Была дообучена (fine-tuned) c помощью обучения с подкреплением от человеческой обратной связи
Информация об архитектуре и размере модели, использованных вычислительных ресурсах, обучающей выборке, протоколе обучения и другие технические характеристики полностью скрыты даже от получающих доступ к модели в исследовательских целях ученых.
Гонка ИИ и влияние на рынок труда
Безусловно, создание GPT-4 — это шаг вперед в мире больших языковых моделей. За шесть месяцев создатели смогли увеличить размер входного текста, улучшить умение анализировать изображения, генерацию результата и прохождение «человеческих» экзаменов на высоком уровне. Все это сигнализирует о невероятной скорости прогресса в области LLM.
Наиболее примечательным остается вопрос подключения языковых моделей к поисковым системам. Модели могут изменить то, как мы ищем информацию, а это приведет к тектоническим сдвигам в триллионной индустрии интернет-поиска, которая затрагивает значительную долю населения Земли. Над созданием моделей работают все крупные игроки рынка.
Многие отмечают успех моделей ИИ в написании кода и задаются вопросом о потенциальном желании крупных технологических компаний заменить часть штата на хорошо обученные алгоритмы. Модели отлично справляются с частными задачами, однако не умеют оценивать код и его вариации в рамках целостной системы, поэтому не могут заменить программистов. Не стоит забывать и о протоколах безопасности: любая загруженная в бот информация может использоваться для его обучения. Существует вероятность, что однажды попавший в модель код может всплыть в любой точке мира как ответ на правильно заданный вопрос. Вероятность того, что бизнес готов к подобным рискам, невелика. В первую очередь распространение инструментов на основе языковых моделей отразится на изменении KPI и структуры бизнес-процессов, а выполняемые людьми задачи станут сложнее. Первые программисты наизусть запоминали каждую команду и держали в голове сотни решений. Появление библиотек, позволяющих «вызывать» необходимые строки и команды по ключевой фразе, не повлияло на количество рабочих мест.
Генеративный ИИ спровоцирует появление еще большего количества контента. При всем разнообразии сценариев развития ситуации смело можно предсказать появление новых профессий и/или расширение функционала ряда существующих. Во-первых, контент необходимо структурировать и верифицировать, а во-вторых, созданные нейросетями тексты и изображения нуждаются в коррекции и дополнении. 16 марта Microsoft объявил о внедрении GPT в линейку офисных продуктов Microsoft365. Помимо генерации контента, система предполагает интеграцию продукта Copilot в «деловой чат», который должен объединять данные текстовых документов, календаря, электронной почты, презентаций и заметок. Быстрая «суммаризация» информации призвана освободить менеджеров от части операционной нагрузки. Подобные продукты — еще один пример того, как внедрение технологий ИИ в рабочие процессы влияет на перераспределение временных ресурсов сотрудников. Теперь 40 минут, которые раньше тратились на подготовку отчетов о проделанной работе, можно использовать для выполнения основных задач.
Первая революция в развитии технологий ИИ была связана с распространением глубокого обучения (deep learning). Оно сделало многие инструменты доступнее для небольших компаний и даже разработчиков-одиночек. Именно глубокое обучение обеспечило каждому человеку возможность быстро показать свой вопрос на экране телефона незнакомцу из другой страны и понять, что он скажет в ответ. Новая эпоха в технологическом развитии — это время базисных моделей (foundation models), огромных нейросетевых моделей, обучаемых большими компаниями. Наиболее сильными и качественными среди них как раз являются большие языковые модели, в том числе GPT-4.
Актуальная стратегия OpenAI и стремление ограничить доступ к основе технологии объяснимы и оправданы как с точки зрения бизнес-логики, так и с позиции этики инноваций. Несмотря на это, важно заметить, что эта стратегия предполагает создание коммерческой «форточки» к своей структуре для всех компаний, которые будут разрабатывать продукты на основе GPT. Схема взаимодействия очень похожа на принцип маркетплейсов приложений: разработчики зависят от стоимости подписки и внутренних требований по содержанию и оформлению продуктов. Так что ситуация в мире языковых моделей во многом зависит от изучения возможностей регулирования рынка, а развитие и поддержка проектов с открытым исходным кодом играют немаловажную роль в поддержании его баланса.