К сожалению, сайт не работает без включенного JavaScript. Пожалуйста, включите JavaScript в настройках вашего броузера.

Прогресс не остановить: почему важно развивать искусственный интеллект в смартфонах

Фото Getty Images
Фото Getty Images
В 2013 году герой Хоакина Феникса в фильме «Она» общался с голосовым помощником Самантой как с реальным человеком и даже влюблялся в нее. Спустя 10 с лишним лет в наших гаджетах живут помощники с приятными голосами и неплохо шутят, но в остальном все еще не могут приблизиться к Саманте. Что предстоит сделать ученым и разработчикам, чтобы ИИ совершил этот рывок? Или мы остановимся в этой точке? О прогрессе ИИ в мобильных устройствах рассуждает лауреат премии Yandex ML Prize, научный сотрудник МФТИ и Yandex Research ML Residency, математик Александр Безносиков

Распознавание лиц и голоса

ИИ в смартфонах стали использовать уже в нулевых, когда появились камеры. Но вычислительных ресурсов для распознавания фотографий в компьютерах и смартфонах не хватало, поэтому алгоритмы работали не так точно, как хотелось бы. Например, объем оперативки Samsung X600 в 2003 году составлял несколько десятков Мб, а разрешение камер — всего 0,3 Мп. На таких скромных мощностях можно было зеркалить изображения, добавлять рамки и экспериментировать со снимками. 

В начале 2010-х смартфоны стали мощнее. С развитием машинного обучения создавались более продвинутые алгоритмы обработки изображений —  сверточные нейронные сети. Эти нейронки помогали компьютерам анализировать — то есть видеть и понимать — изображение и видео. Так, искусственный интеллект стал предлагать фотографу сделать удачный ракурс, размыть фон или увеличить резкость, устранить шумы или эффект красных глаз. А затем пришло время голосовых помощников. 

  • 2011 год. Apple разработала Siri — голосового помощника, ставшего одной из первых массово применяемых систем ИИ в смартфонах.
  • 2012 год. Google выпустила персонализированный поисковый сервис Google Now. Вскоре к нему добавили функции шагомера, напоминаний, сервиса для покупки авиабилетов. Через пять лет его заменил Pixel Launcher. 
  • 2016 год. Google разработала улучшенную версию голосового помощника Google Assistant и умную клавиатуру Gboard. Apple представила SiriKit — набор инструментов, позволяющий разработчикам встраивать Siri в приложения.
Telegram-канал Forbes.Russia
Канал о бизнесе, финансах, экономике и стиле жизни
Подписаться

Генеративные модели

В то же время в смартфонах появились генеративные модели, алгоритмы которых могли в том числе создавать и изменять фото, видео и текст. Вы наверняка помните фильтры и эффекты в Instagram (принадлежит Meta, которая признана экстремистской организацией и запрещена в России) 2010 года. Другой пример использования генеративных моделей — фильтры на смартфонах HTC (2012 год), которые можно было применять прямо во время съемки, аватары-мультяшки в приложении Bitmoji (2014 год), а также функции AR в Snapchat (2015 год). 

 

Тогда модели обучались на открытых наборах данных (ImageNet для изображений) или корпусах текстов для обработки естественного языка (чаще на текстах из «Википедии»). Чтобы создать специализированные приложения под конкретные цели, разработчики использовали собранные датасеты. Например, чтобы автоматически убрать красные глаза на фото, нужно было дообучить модель идентифицировать дефект на примере нескольких тысяч снимков.

Федеративное обучение

В 2017 году компания Google представила концепцию федеративного (или совместного) обучения. В традиционной системе исходная модель хранится в центральном сервере. В федеративном обучении — загружается на устройство и дообучается на локальных данных. Обновленная, она возвращается на сервер, объединяется с другими моделями путем усреднения и отправляется обратно на устройство. Такой процесс может повторяться несколько раз. Таким образом, модель вбирает в себя не только локальные данные и информацию от всех пользователей, что может значительно улучшить качество обучения.

 

Наши смартфоны и планшеты — идеальный источник для совместного обучения ИИ-моделей, ведь там хранится множество всевозможных данных.

Но для развития федеративного обучения нужно ответить на несколько вызовов. Во-первых, у смартфонов может не хватать вычислительных ресурсов. Трудно обучать модели на устройствах, которые уже используются, — они перегреваются, а приложения медленно грузятся.

Во-вторых, неравномерность данных. В федеративном обучении наборы пользовательских данных отличаются по размеру и составу. В классическом распределенном обучении данные можно разделить между процессорами и видеокартами любым образом. А в федеративном нужно работать с тем, что есть на устройстве пользователя без возможности переместить или изменить. Чтобы обеспечить распределенные вычисления и синхронизацию результатов в федеративном обучении, нужны алгоритмы, устойчивые к неоднородности данных. 

 

В-третьих, приватность и безопасность. В федеративном обучении данные остаются на устройстве пользователя, но обмен информацией между пользователем и сервером все равно происходит. Передавая не сами данные, а производную информацию о них, нельзя быть уверенным в приватности, так как существует целое научное направление, связанное с атаками на конфиденциальность федеративного обучения. Ученые также заняты и методами защиты приватности. Но методы для повышения конфиденциальности — безопасные многосторонние вычисления или дифференциальная приватность — часто уменьшают эффективность системы. Понимание и балансировка этих компромиссов (как в теории, так и на практике) — важные задачи при создании федеративных систем обучения. Такими задачами я занимаюсь вместе со своей командой в Лаборатории математических методов оптимизации МФТИ.

Большие языковые модели

В 2023 году в смартфоны пришли большие языковые модели. Например, всеми известная OpenAI выпустила ChatGPT. Инженеры OpenAI не открыли ChatGPT для свободного доступа сторонним приложениям, но можно получить доступ на уровне API. При этом к самым новым моделям можно подключаться даже дешевле, так как они пока находятся в тестовом режиме, но уже выдают куда лучшие результаты, чем более старые версии.

Российские компании тоже создают свои GPT. Среди возможного функционала таких нейросетей — умение отвечать на вопросы пользователей, поддерживать диалог, писать программный код, создавать тексты и картинки на основе описаний в рамках единого контекста, пересказывать видео, искать ошибки в коде и исправлять их.

Вызовы будущего

За последние два года мы стали еще ближе к миру фантастических антиутопий с умными ассистентами. Современные гаджеты оснащены микропроцессорами, предназначенными для задач машинного обучения. Софт, связанный с множеством датчиков в устройствах, позволяет следить за состоянием здоровья владельца. Большие языковые модели все чаще прикручивают к чат-ботам и голосовым ассистентам. 

В отличие от раннего умного софта современные модели имеют колоссальный объем набора данных для обучения. С помощью языковых моделей мы можем писать тексты, код, сценарии, находить ошибки в докладах, превращать видео в статьи, решать математические задачи — и пока мы делаем это, модели обучаются. Сейчас федеративным обучением продолжают заниматься все крупные компании — и не просто так. Без него прорыв в сфере ИИ не будет настолько впечатляющим.

 

Потому что совместное использование искусственного интеллекта в рамках федеративного обучения может помочь развитию медицинских и научных исследований, финансовых и банковских услуг, безопасности дорожного движения и транспорта, а также создания новых возможностей для людей с ограничениями мобильности.

Чтобы решать все эти задачи и определять будущее технологий, нужны не только таланты, но и образовательная среда. Многие университеты имеют специализированные факультеты или программы для студентов и выпускников, желающих изучать ИИ. Кроме того, знания можно получить на образовательных платформах, которые выпускают специальные онлайн-курсы вместе с лучшими исследователями и преподавателями ИИ. 

Далеко не все производители обладают ресурсами и экспертизой для внедрения. Обучать ИИ-модели можно не на всех устройствах. Еще нужно собрать команду разработчиков и математиков, способных создать свои алгоритмы обучения и оптимизации, а также убедить пользователей в безопасности их информации не только для смартфонов, но и, например, для медицинских данных — а это более комплексная и глобальная задача. 

Мнение редакции может не совпадать с точкой зрения автора

 

Мы в соцсетях:

Мобильное приложение Forbes Russia на Android

На сайте работает синтез речи

иконка маруси

Рассылка:

Наименование издания: forbes.ru

Cетевое издание «forbes.ru» зарегистрировано Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций, регистрационный номер и дата принятия решения о регистрации: серия Эл № ФС77-82431 от 23 декабря 2021 г.

Адрес редакции, издателя: 123022, г. Москва, ул. Звенигородская 2-я, д. 13, стр. 15, эт. 4, пом. X, ком. 1

Адрес редакции: 123022, г. Москва, ул. Звенигородская 2-я, д. 13, стр. 15, эт. 4, пом. X, ком. 1

Главный редактор: Мазурин Николай Дмитриевич

Адрес электронной почты редакции: press-release@forbes.ru

Номер телефона редакции: +7 (495) 565-32-06

На информационном ресурсе применяются рекомендательные технологии (информационные технологии предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей сети «Интернет», находящихся на территории Российской Федерации)

Перепечатка материалов и использование их в любой форме, в том числе и в электронных СМИ, возможны только с письменного разрешения редакции. Товарный знак Forbes является исключительной собственностью Forbes Media Asia Pte. Limited. Все права защищены.
AO «АС Рус Медиа» · 2024
16+