Энергетический голод: как большие языковые модели влияют на экологию
Большим моделям — большой углеродный след
Успех языковой модели ChatGPT от OpenAI спровоцировал гонку в индустрии, в ходе которой техногиганты вложили огромные средства в создание собственных LLM. У искусственного интеллекта (ИИ) быстро растет углеродный след, что связано с его ненасытной жаждой энергии и затратами на выбросы углерода при производстве оборудования, которое он использует. В ходе недавнего исследования Массачусетского университета было определено, что обучение самых популярных ИИ-моделей произвело около 626 000 фунтов углекислого газа, что эквивалентно примерно 300 перелетам туда и обратно между Нью-Йорком и Сан-Франциско.
Есть еще пара интересных аналогий: например, для обучения GigaChat, по данным SberDevices, потребовалось 1024 GPU — такого количества бы хватило, чтобы четыре месяца снабжать электричеством стадион «Лужники». А один центр обработки данных в среднем потребляет энергию, эквивалентную отоплению 50 000 домов в год. По данным исследователей OpenAI, с 2012 года объем вычислительной мощности, необходимой для обучения новейших моделей ИИ, удваивается каждые 3,4 месяца.
Хотя слово «облако» звучит неощутимо, работает оно на вполне ощутимом оборудовании: кабелях, вентиляторах, серверах, маршрутизаторах, редких металлах и многом другом. Центры обработки данных, используемые для облачных вычислений, требуют значительных объемов энергии для своей работы и охлаждения, что приводит к увеличению выбросов вредных веществ.
Стоит отметить, что в контексте больших языковых моделей обучение одной модели — это только начальный объем работы, за которым скорее последует ее непосредственная эксплуатация, дообучение или адаптация к другим наборам данных. О том, сколько ресурсов нужно для обучения одной модели, мы упомянули выше.
Варианты решения проблемы
Open-source LLM вместо проприетарных моделей. Очевидно, что бизнес в первую очередь ищет выгоду в экономии. Но иногда экономия на разработке — это и повышение экоответственности. Весь 2023 год мы были свидетелями гонки техногигантов, которые один за другим представляли собственные LLM-модели. За кулисами громких анонсов остались огромные затраты на вычислительные и экологические ресурсы, которые растут пропорционально размеру модели.
ИИ-волна накрыла многие технологические компании, которые также задумывались о создании собственных LLM-моделей. Но, к счастью, широкая популяризация таких платформ, как Hugging Face или Cohere, избавила их от необходимости вкладывать большие средства в разработку. Эти платформы дают возможность обмена и совместного использования моделей и наборов данных между различными компаниями и исследовательскими группами — в таком случае обучение проприетарных моделей кажется неэффективным использованием ресурсов.
И дело не только в энергопотреблении для обучения LLM с нуля. Open-source модели, разработанные сообществом, могут быть обучены на более широком наборе уже отфильтрованных данных, то есть очищенных от некорректной, неактуальной или нежелательной информации, и иметь лучшую обобщающую способность — делать предсказания на новых, ранее не использовавшихся в обучении данных. При обучении собственной LLM существует риск переобучения модели на основных данных, что может привести к ухудшению ее обобщающей способности и качества выводов. Это происходит, когда модель слишком точно запоминает «шум» или лишние детали в тренировочных данных и в итоге «теряет смысл» по ходу рассуждения.
Качество vs обьем. С активным развитием open-source моделей мы наблюдаем увеличение числа небольших кастомных моделей, созданных для специфических отраслей и задач. Этот тренд становится все более заметным. Модель Harvey, например, специализируется на создании LLM для крупных юридических фирм. Character AI и Ava разработаны для создания цифровых компаньонов. Кастомные модели могут быть оптимизированы под конкретные задачи и наборы данных, что позволяет использовать меньше вычислительных ресурсов для достижения желаемых результатов.
Курс на устойчивое развитие. К счастью, многие крупные технологические компании мира прилагают сознательные усилия по сокращению выбросов углекислого газа, использованию возобновляемых источников энергии и минимизации отходов. Так, Google вкладывает средства в новые технологии, которые за счет машинного обучения смогут охлаждать свои ЦОДы с помощью интеллектуальных энергосберегающих термостатов. Meta (признана экстремистской и запрещена в России) взяла на себя обязательство достичь нулевых выбросов по всей цепочке создания стоимости в 2030 году, а Microsoft недавно наняла директора по ускорению ядерных разработок для реализации стратегии по использованию небольших модульных реакторов и микрореакторов для питания центров обработки данных Microsoft.
Не секрет, что для российских компаний экоосознанность не является важным фактором при развитии технологий, скорее это часть корпоративной политики, которая декларируется на сайте. Тем не менее зарождающийся тренд на устойчивое развитие в области ИИ очевиден, и компаниям, которые занимаются разработками в этой области, будет все тяжелее игнорировать этот аспект. Ведь основная цель ИИ — сделать нашу жизнь лучше. Только задумайтесь, человеческий мозг может делать удивительные вещи при небольшом энергопотреблении. Как создать точно такой же искусственный интеллект? Для гармоничного и энергоемкого сосуществования машин и людей ответ на этот вопрос нам еще предстоит найти.
Мнение редакции может не совпадать с точкой зрения автора