Градация деградации: ожидает ли генеративный искусственный интеллект вырождение
Интернет наполняется ерундой
Спустя всего полгода после появления ChatGPT в широком доступе все больше людей применяют ИИ в создании и публикации контента. По данным McKinsey and Company, уже около 50% сотрудников по всему миру используют в своей работе подобные инструменты. Но что происходит по мере распространения контента, сгенерированного ИИ, по всему интернету, когда модели ИИ начинают обучаться на нем, а не на том, что создал человек?
Группа исследователей из Великобритании и Канады изучила эту проблему и недавно опубликовала статью о своей работе. То, что они обнаружили, вызывает тревогу для существующей технологии генеративного ИИ и ее будущего: использование контента, сгенерированного моделями, при обучении приводит к необратимым дефектам. Это, в свою очередь, приводит к коллапсу модели — «дегенеративному процессу, при котором со временем модели забывают истинное распределение исходных данных <...> этот процесс неизбежен даже для кейсов с почти идеальными условиями для долгосрочного обучения», пишут они.
«Со временем ошибки усугубляются и в конечном счете заставляют модели, которые учатся на сгенерированных данных, еще больше искажать реальность, — прокомментировал VentureBeat один из ведущих авторов статьи Илья Шумайлов. — Мы были удивлены, наблюдая, как быстро происходит разрушение модели: модели могут быстро забыть большую часть исходных данных, из которых они изначально извлекли уроки». Таким образом, производительность ИИ ухудшается, это приводит к большему количеству ошибок в ответах и создаваемом контенте и к гораздо меньшему разнообразию безошибочных ответов.
«Точно так же, как мы усыпали океаны пластиковым мусором и наполнили атмосферу углекислым газом, мы собираемся заполнить интернет ерундой, — продолжает другой соавтор исследования, профессор Кембриджского и Эдинбургского университетов Росс Андерсон. — Это затруднит обучение новых моделей, что даст преимущество тем, кто уже сделал это. Действительно, мы уже видим, как стартапы с искусственным интеллектом забивают интернет-архив обучающими данными».
В ожидании коллапса
Действительно ли проблема настолько серьезная? Что значит «коллапс модели» и каким может быть решение? Не случится ли так, что ИИ, обучаемый на некорректных данных, сломает все и разрушит? Forbes опросил российских специалистов в области ИИ, что они думают по этому поводу.
Опрошенные эксперты признают проблему некорректного обучения ИИ, однако не склонны ее драматизировать. «Проблема «шумных» данных была в машинном обучении всегда, начиная с классических моделей, — поясняет директор по ИИ и цифровым продуктам «Билайна» Константин Романов. — Однако сейчас ей стали уделять более пристальное внимание. Связано это с тем, что такой выход модели, как «текст» или «изображение», человеку проще оценить критически, нежели некоторые числовые выходы». По мнению ведущего инженера NLP Just AI Константина Котика, то, что ИИ обучается на данных, сгенерированных самим же ИИ, не значит, что нейросети начнут деградировать. Он напоминает, что многие существующие модели, подобные тем, что заложены в ChatGPT, были получены за счет обучения на текстах, сгенерированных с помощью СhatGPT, например известная модель от Стэнфорда Alpaca. «Скорее нужно контролировать качество данных, а не ограничивать использование синтетических данных», — полагает он.
Во время обучения генеративные модели создают данные, которые могут быть очень полезны для продолжения настройки, но, как и любая технология, они имеют свой предел эффективности, говорит ведущий научный сотрудник Института AIRI и директор центра технологий ИИ Сколтеха Иван Оселедец. «Коллапсом модели» называют ситуацию, в которой система зацикливается и бесконечно повторяет существующие шаблоны вместо генерации новых результатов, объясняет он: «Создатели генеративных моделей (не только языковых) уже научились предотвращать «переобучение», когда модели чересчур подробно усваивают обучающий набор данных и не могут обобщить эти знания с учетом новых, выдавая в результате ошибки и галлюцинации».
Попадание чересчур большого количества сгенерированных текстов в обучающую выборку действительно может привести к формированию петли обратной связи, которая сузит диапазон знаний конкретной системы и заставит ее сжиматься до ограниченного набора результатов, рассуждает Оселедец: «Однако это не значит, что обучение моделей на синтетических данных «сломает все нейросети». Исследователи и разработчики могут регулярно обновлять датасеты, самостоятельно расширять и фильтровать их содержание».
Впрочем, есть и эксперты, которые видят повод для настоящего беспокойства. «В сложившейся ситуации есть две проблемы. Первая — большие языковые модели (Large Language Models, LLM) позволяют генерировать контент, который ломает существующие системы мониторинга данных и соцсети. Вторая — LLM ломают другие LLM, и мы не сможем обучать модели на данных, появившихся после 2022 года, — размышляет Сергей Загоруйко, руководитель направления исследований MTS AI. — Первая проблема серьезная, ее надо решать срочно, но она решаема. Последствием второй может стать то, что LLM застрянут в 2023 году, не будут достоверно знать ничего позже и потеряют применение. Если сгущать краски, то это может привести к тому, что наступит разочарование инвесторов и придет новая «зима» для ИИ. Такое потенциально возможно, но маловероятно, на мой взгляд».
К слову, глобально сфера ИИ — одна из самых щедро инвестируемых, несмотря на то что в 2022 году показатель объема частных вложений в эту область сократился впервые за десятилетие. Так, в прошлом году инвестиции в ИИ в мире составили $91,9 млрд, это на 27% меньше, чем в 2021 году, когда показатель составлял рекордные $125,4 млрд, говорится в отчете Стэнфордского университета «Индекс искусственного интеллекта-2023». При этом прошлогодний показатель в полтора раза выше уровня 2020 года и в 18 раз — 2013 года.
Что делать
Основным способом решения этой проблемы специалисты видят качественный контроль экспертами исходных данных. «При невозможности изучения больших объемов информации ориентироваться так или иначе стоит на выходной результат модели. Для этого существуют специальные методики тестирования, по которым с определенной степенью достоверности можно говорить о качестве работы той или иной модели», — говорит Константин Романов.
Сейчас наиболее важно уделить внимание созданию новых усиленных бенчмарков, стандартизированных и объективных классификаторов оценки производительности ИИ-моделей и качества датасетов, считает Иван Оселедец. Благодаря всестороннему тестированию такие эталонные тесты могут заблаговременно выявлять ситуации, в которых «коллапс модели» наиболее вероятен, заключает эксперт.
Огромную важность обретает верификация транслируемой информации, рассуждает генеральный директор Content AI Светлана Дергачева. Процесс проверки данных, по ее словам, должен быть тщательным и многоступенчатым, вовлекать как живого человека, так и технологические решения: «Поэтому сегодня мы говорим о возрастающей роли AI-тренеров, которые контролируют качество контента, препятствуют использованию некорректных данных в процессе машинного обучения».
«Загрязнение водоемов приводит к росту продаж бутилированной воды. Загрязнение интернета приведет к росту цен на чистые данные, — указывает технический директор Smart Engines, кандидат физико-математических наук Дмитрий Николаев. — Профессионалам следует заниматься своей предметной областью, а нейросетевики вынужденно перестроятся. После чего прогресс продолжится».