Лауреаты
Yandex ML Prize

о вдохновении, работе и перспективах машинного обучения


Зачем исследователи из разных стран делятся друг с другом своими разработками? Где мы, сами того не замечая, пользуемся разведочным поиском? Как машинное обучение меняет всю нашу жизнь, приближая будущее, рассказывают ML-специалисты, лауреаты Yandex ML Prize.

Yandex ML Prize — международная премия для исследователей и преподавателей в сфере машинного обучения. Каждый год эксперты Яндекса награждают авторов исследований в области распознавания и синтеза речи, компьютерного зрения, обработки естественного языка, генеративных моделей.

Reinforcement Learning

Александр Никулин

Научно-исследовательская
лаборатория Tinkoff Research

Номинация: «Первая публикация»
Основные тезисы из интервью Александра Никулина
00:45

Меня ведет мое любопытство. В школе я с интересом учился в биоклассе, потом — на социологическом факультете ВШЭ. Но больше всего меня увлекло машинное обучение, потому что оно меняет мир на глазах.

01:59

Благодаря машинному обучению система может, как человек, научиться выделять признаки и по ним, например, отличать кошку от собаки. Нейросети обычно обучаются с помощью методов глубокого обучения, и к ним относится обучение с подкреплением, которым я занимаюсь.

04:58

ML-специалист может даже не быть крутым математиком. Главное — любопытство и страсть, желание постоянно учиться новому и много работать.

05:43

Я получил премию Yandex ML Prize за статью об оценке неопределенности в обучении с подкреплением. Что это значит? Если, например, мы хотим научить автомобиль самостоятельно ездить по улице, то учить будем не в городе: это опасно. Мы будем учить на больших данных, которые все равно не включают все возможные ситуации. Оценка неопределенности помогает машине выбирать наиболее оптимальные действия: например, не поворачивать направо там, где обычно поворачивают налево.

12:00

Нашу группу, как и многих в индустрии, сейчас интересует создание огромных базисных моделей ИИ — такая задача под силу скорее бигтех-компаниях с большими ресурсами. Академические ученые все чаще делают объединенные международные проекты, у которых может быть 50–100 авторов.

Что может вдохновить школьников стать исследователями:
Reinforcement Learning

Владислав Куренков

Научно-исследовательская
лаборатория Tinkoff Research

Номинация: «Молодые научные руководители»
Основные тезисы из интервью Владислава Куренкова
00:45

Школьником я заинтересовался искусственным интеллектом благодаря компьютерным играм и книгам Яна Миллингтона. На студенческой стажировке я понял, как много можно сделать с помощью машинного обучения с подкреплением.

01:45

Машинное обучение с подкреплением позволяет машинам учиться путем проб и ошибок, взаимодействуя со средой. А если это дорого или опасно, как, например, обучать беспилотные автомобили ездить прямо на городских улицах, то используется офлайн-обучение с подкреплением. Сегодня этот метод востребован в самых разных сферах, включая финтех.

04:50

Основное отличие академических и индустриальных исследований — в ресурсах. Вузы по-прежнему проводят интересные исследования, а в лучших индустриальных лабораториях всегда работают выпускники престижных вузов. Это синергия.

06:24

IT-компаниям выгодно работать со студентами. Во-первых, некоторых специалистов проще вырастить, чем найти на рынке. Во-вторых, у студентов высокая мотивация — это очень важно для исследователя, чтобы не выгореть.

09:07

Машинное обучение развивается так динамично, что без собственного исследовательского департамента бигтех быстро проигрывает конкурентам в технологиях. Публикации привлекают к компании экспертов и формируют вокруг нее комьюнити разработчиков.

11:49

Советы начинающим исследователям. Первый: не бойтесь отказываться от идей. Если не работает, просто забудьте. Второй: найдите свою исследовательскую группу. В одиночку исследование мирового уровня не сделать.

12:34

Мы популяризируем машинное обучение с подкреплением, показывая, как хорошо этот метод работает в реальных продуктах. Мы улучшаем его и выкладываем свои исследования в открытом доступе, ускоряя научный процесс. Я мечтаю, что когда-нибудь наша группа будет создавать самые крутые RL-алгоритмы и делать мир лучше.

Что может вдохновить школьников стать исследователями:
Фундаментальные проблемы архитектуры глубоких нейронных сетей

Айдар Булатов

МФТИ

Номинация: «Первая публикация»
Основные тезисы из интервью Айдара Булатова
00:48

На занятиях мехмата МГУ для школьников я понял, насколько математика интереснее и глубже, чем нас учили. А на третьем курсе я посмотрел видео, в котором нейросеть, как человек, учится играть в Super Mario. Это настолько меня впечатлило, что я начал самостоятельно проходить разные курсы по машинному обучению.

02:45

Моя первая научная публикация в аспирантуре МФТИ связана с трансформером — очень популярной моделью нейронных сетей. С ее помощью многие приложения в вашем смартфоне обрабатывают тексты и изображения. Главный ее минус — она не может работать с очень большими объемами информации. В своем исследовании я предположил, что решить проблему можно, добавив модели память.

03:19

В области машинного обучения есть традиция — давать броские названия научным статьям. Наша статья 2024 года, например, обыгрывает поговорку о поиске иголки в стоге сена. Еще одна важная традиция — выкладывать научные статьи в открытом доступе, чтобы любой ученый мог использовать твои результаты для новых открытий. Благодаря этому мы вместе достигаем прогресса.

04:53

Я загрузил статью в открытый архив и наутро проснулся знаменитым. Наша статья завирусилась в соцсетях, о ней писали многие профильные ресурсы. Мы получили большой отклик от ученых со всего мира, и из этого выросла научная группа из представителей разных стран. Наука — сила, которая связывает людей, горящих общими идеями.

08:43

Довести фундаментальное исследование до какого-нибудь продукта — это большая работа разных специалистов, включая инженеров и прикладных исследователей.

12:12

Для динамичного развития сферы машинного обучения государство и IT-компании должны готовить новые качественные образовательные курсы. Это увеличит приток кадров из разных областей. А научное комьюнити должно прикладывать усилия, чтобы все исследования продолжали появляться в открытом доступе для широкой аудитории. Моя научная мечта — научить нейросети постоянно учиться и развиваться, как это умеет делать человек.

Что может вдохновить школьников стать исследователями:
Разведочный поиск,
виртуальные аватары

Анастасия Янина

МФТИ

Номинация: «Молодые исследователи»
Основные тезисы из интервью Анастасии Яниной
02:20

Стать специалистом в области ML можно не только в профильном вузе. Крупные IT-компании открывают комплексные образовательные программы, например у Яндекса есть двухлетняя Школа анализа данных (ШАД). Студенты таких программ часто находят работу еще до выпуска.

04:40

Все знают, как легко сегодня найти базовую информацию почти обо всем. Но есть еще продвинутые системы так называемого разведочного поиска, которые подбирают тематически близкие документы без точного запроса. С их помощью врач или ученый может найти редкие статьи в малознакомой области, а юрист или журналист — обнаружить документ без названия и даты в огромной базе. С развитием нейросетей разведочный поиск становится доступнее для всех.

08:39

Один и тот же специалист может заниматься исследованиями в совершенно разных областях: трудиться над системой разведочного поиска и одновременно создавать цифровые аватары. Эти своеобразные виртуальные двойники можно использовать, например, для виртуальной примерки одежды или в телеконференциях. Продукты и сферы не похожи, а методы могут быть одинаковые.

10:39

Исследования российских и зарубежных компаний по сути ничем не отличаются: специалисты читают одни и те же статьи, пишут коды, ездят на отраслевые конференции. Но постановка задач может различаться. Так, российские компании в основном ориентируются на потребности внутреннего рынка, а международным приходится учитывать интересы пользователей с разных континентов.

11:28

Часто исследовательская работа связана с преподаванием. Преподавание помогает специалисту глубже разобраться в теме. Я, например, даже написала учебник по машинному обучению. Среди студентов я нахожу помощников в своих исследованиях. Но дорогими исследованиями сегодня проще заниматься в высокотехнологичных компаниях. Да и их результаты, возможно, быстрее найдут применение в жизни.

Что может вдохновить школьников стать исследователями:
Распределенные методы,
и федеративное обучение

Александр Безносиков

МФТИ, Yandex Research ML Residency

Номинация: «Исследователи Яндекса»
Основные тезисы из интервью Александра Безносикова
00:47

Мне всегда хотелось заниматься чем-то прикладным: применяешь математику — и видишь эффект.

01:52

Распределенное обучение — это про то, как обучать большие языковые модели, которые сейчас становятся просто невероятными. Данные, на которых они обучаются, — это триллионы картинок и текстов. Сложно это все делать в пределах одного вычислительного устройства. Поэтому используют условно целый домик из видеокарт, которые между собой соединяют, вычисления делаются параллельно.

03:48

Федеративное обучение — новая парадигма. На наших персональных устройствах — телефонах, планшетах, компьютерах — хранится много полезной с точки зрения машинного обучения информации, которую можно использовать в обучении языковых моделей. Потенциал использования огромный. Например, в медицине: несколько дата-центров, которые хранят информацию о пациентах, могут объединить усилия для обучения одной модели. При этом в каждом из элементов цепочки — приватные данные, они зашифрованы, засекречены, никуда не передаются и остаются на устройствах.

05:30

Главная проблема исследователей — как собрать большой вычислительный ресурс. В России такими ресурсами владеют максимум десятки компаний. Поэтому даже мы в пределах Физтеха, обучая какие-то даже не самые большие модели, используем распределенные подходы.

07:12

Мы начинаем активно исследовать вопросы приватности, атак на данные, модели, лейблы и защиты от этих атак. Актуальны и вопросы эффективности коммуникаций: как передавать меньше, быстрее, стабильнее, а также персонализации обучения. Это все социально важные вопросы. И мы хотим в этом разбираться на уровне передовых мировых исследователей.

15:48

Победа в Yandex ML Prize дает, во-первых, статус, который можно использовать в продвижении своих проектов и идей, при подаче на гранты, работе с бизнесом. Ты победитель ML Prize — твои результаты признаны, тебе можно доверять. Во-вторых, Yandex Cloud дает вычислительные мощности. В-третьих, материальная составляющая.

Что может вдохновить школьников стать исследователями: