К сожалению, сайт не работает без включенного JavaScript. Пожалуйста, включите JavaScript в настройках вашего броузера.

Ничего лишнего: какие возможности открывает сжатие нейросетей

Фото Jaap Arriens / NurPhoto via Getty Images
Фото Jaap Arriens / NurPhoto via Getty Images
Повсеместное внедрение нейросетей, ставшее главным IT-трендом последнего времени, порой сталкивается с проблемой: мощности гаджетов не хватает для работы с тяжеловесными нейросетевыми архитектурами. В результате пользователи не могут использовать искусственный интеллект на смартфонах без интернета. О том, как сжатие нейросетей помогает решить этот вопрос, и какие возможности оно открывает для пользователей, в колонке для Forbes рассказывает ученый «Сколтеха», резидент Yandex Research ML Residency, лауреат премии Yandex ML Prize в номинации «Исследователи Яндекса» Денис Кузнеделев

Запрос на сжатие

Сегодня все больше людей и предприятий внедряют технологии искусственного интеллекта (ИИ) для решения своих задач. Однако современные нейросети разных видов (генеративные, сверточные и другие), которые могут показывать высокое качество при выполнении целевых задач, обычно требуют много ресурсов и дорогостоящей инфраструктуры для внедрения. Их может себе позволить далеко не каждый человек или малый бизнес.

В результате нейросетевые архитектуры на гаджетах пользователей работают или хорошо, но медленно, или быстро, но с многочисленными ошибками. Пользователи просто не могут полноценно применять многие технологии с хорошим качеством — например, для обработки изображений, распознавания речи или переводов.

Telegram-канал Forbes.Russia
Канал о бизнесе, финансах, экономике и стиле жизни
Подписаться

Эту проблему способно решить сжатие нейросетей: оно повышает доступность технологий и потому представляет значительный интерес для IT-сферы. Суть сжатия сводится к тому, что в ходе него убираются наименее важные компоненты нейросети. Так получается новая нейросеть, в которой меньше параметров — чисел, задающих выполняемые математические операции.

 

Другой вариант — каждое число в новой нейросети оказывается представлено в меньшей точности, скажем, в четыре бита вместо 16. Иногда возможны и оба варианта сразу. Новая нейросеть не уступает в качестве исходной, но требует меньшего объема памяти и вычислений. Например, у популярных среди пользователей нейросетей Llama, Mistral, Yi есть сжатые версии, практически не уступающие исходным в качестве и доступные рядовому пользователю.

Новые возможности

Сжатый формат нейросетей позволяет запускать их на мобильных устройствах с ограниченной вычислительной мощностью — смартфонах, планшетах и ноутбуках. В обычном виде такие нейросети на гаджетах либо работают слишком долго, либо приходится использовать их варианты, сильно уступающие в качестве. Однако технология сжатия нейросетей позволяет решить эту проблему: она широко применяется в аудио, видео и текстовых форматах.

 

Например, с ее помощью на смартфоне или планшете можно за считаные секунды с высокой точностью перевести аудио или фрагмент текста с одного языка на другой. Кроме того, технология сжатия нейросетей позволяет без лишней нагрузки на гаджеты и приложения обрабатывать визуальные объекты — фото и видео.

В частности, она помогает использовать фоторедакторы с ИИ — убирать или заменять фон, обрабатывать фото и применять дополнительные визуальные фильтры. Скоростью отличается и обработка видео при помощи сжатых нейросетей: от быстрой генерации роликов по промту и монтирования до добавления визуальных объектов в контент.

От компаний, предоставляющих подобные сервисы, обработка запросов пользователей при помощи обычных нейросетей требует немало средств и ресурсов. Но сжатые нейросети помогают им экономить средства. Причем если приложение платное, эту экономию на себе ощутят и пользователи, которые смогут платить меньше за использование сервиса — ведь сама технология, лежащая в его основе, становится дешевле.

 

«Облачный» подход

Неочевидное, но очень важное достоинство технологии сжатия нейросетей состоит в том, что она помогает бизнесу сохранять конфиденциальность. Сегодня многие компании используют умных ассистентов или чат-ботов в качестве консультантов по рабочим вопросам — например, они помогают готовить отчеты. Как правило, это довольно тяжеловесные нейросети, требующие значительных вычислительных ресурсов и объемов оперативной памяти, которых у компании может просто не быть. Что делать в такой ситуации? Можно обратиться к некому внешнему подрядчику или сервису, который предоставит необходимые вычислительные мощности.

Однако встает вопрос, что делать, если конечные устройства пользователей внезапно окажутся отключены от интернета, который необходим для работы внешних сервисов. И тут на помощь приходят алгоритмы сжатия, которые позволяют запускать нейросети на обычных пользовательских компьютерах, при этом сохраняя качество и производительность.

По сути, это постоянные умные ассистенты, которые можно сравнить с усовершенствованными версиями Siri от Apple или «Алисы» от «Яндекса». Для работы им не требуется интернет, а качество их работы благодаря технологии сжатия на обычных устройствах практически не снижается по сравнению с «облачными» сервисами.

Механизмы безопасности

Основная особенность технологии сжатия нейросетей — увеличение скорости работы без потери качества — крайне актуальна в сфере безопасности, где счет зачастую идет на секунды. Яркий пример — беспилотный транспорт, для которого критична скорость и качество обработки визуальной информации. 

В беспилотниках для обработки информации используются так называемые сверточные нейросети (Convolutional Neural Networks, CNN), хорошо подходящие для обработки изображений и видео. 

 

Беспилотному транспорту очень важно в реальном времени распознавать объекты и людей, своевременно реагировать на резко меняющуюся дорожную обстановку, взаимодействовать, например со светофорами или спецтранспортом – машинами скорой помощи и другими экстренными службами.

Поэтому эффективное и безопасное интеллектуальное решение должно работать быстро и локально, без обращения к серверу и на базе бортового компьютера транспортного средства. Здесь снова приходят на помощь алгоритмы сжатия и ускорения нейронных сетей, которые обеспечивают такие возможности. Это — еще одно большое преимущество технологии нейросетевого сжатия.

Будущее за сжатием

Сегодня лаборатории, в которых ведется изучение технологии сжатия нейросетей, есть у всех крупных IT-компаний, занимающихся «железом» и мобильными устройствами — в том числе у Apple, Huawei, Qualcomm и Samsung. Весьма вероятно, что такие компании в скором времени будут сразу предоставлять нейросети в сжатом виде, открывая возможности для создания новых продуктов и новых сценариев использования.

При этом технология будет развиваться и дальше: наиболее перспективным направлением представляется дальнейшее уменьшение памяти, которую занимает отдельный параметр в больших языковых моделях — вплоть до одного бита. А чтобы экспериментировать со сжатием могло больше специалистов, мы с другими исследователями «Яндекса» выложили в публичный доступ несколько популярных языковых моделей.

 

Раньше их можно было запускать только на мощных и дорогих видеокартах, а теперь они помещаются на видеокарте в Google Colab, которая бесплатно предоставляется любому желающему. Поэтому технология сжатия нейросетей — это будущее, которое доступно уже сегодня.

Мнение редакции может не совпадать с точкой зрения автора

Мы в соцсетях:

Мобильное приложение Forbes Russia на Android

На сайте работает синтез речи

иконка маруси

Рассылка:

Наименование издания: forbes.ru

Cетевое издание «forbes.ru» зарегистрировано Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций, регистрационный номер и дата принятия решения о регистрации: серия Эл № ФС77-82431 от 23 декабря 2021 г.

Адрес редакции, издателя: 123022, г. Москва, ул. Звенигородская 2-я, д. 13, стр. 15, эт. 4, пом. X, ком. 1

Адрес редакции: 123022, г. Москва, ул. Звенигородская 2-я, д. 13, стр. 15, эт. 4, пом. X, ком. 1

Главный редактор: Мазурин Николай Дмитриевич

Адрес электронной почты редакции: press-release@forbes.ru

Номер телефона редакции: +7 (495) 565-32-06

На информационном ресурсе применяются рекомендательные технологии (информационные технологии предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей сети «Интернет», находящихся на территории Российской Федерации)

Перепечатка материалов и использование их в любой форме, в том числе и в электронных СМИ, возможны только с письменного разрешения редакции. Товарный знак Forbes является исключительной собственностью Forbes Media Asia Pte. Limited. Все права защищены.
AO «АС Рус Медиа» · 2024
16+