Цифровой слух: как «Яндекс» подбирает музыку под ваше настроение

Евгений Крофто Автор

Какие технологии находятся под капотом «Яндекс.Музыки» и почему искусственный интеллект еще не скоро сочинит симфонию

Чарты музыкальных предпочтений слушателей «Яндекс.Музыки» показывают, что пользователи все чаще ищут новую музыку, а не ставят на повтор проверенных Scorpions или Metallica. И сегодня одна из самых сложных и интересных задач для музыкальных сервисов — научиться подбирать музыку под настроение. Согласитесь, на мосту весеннего Будапешта и в трамвае заснеженного Екатеринбурга мы, скорее всего, выберем совершенно разные треки. Найти музыку, которая понравилась бы пользователю в определенный момент времени нам помогают нейросети.

Искусственные нейронные сети — один из методов машинного обучения, который стал особенно популярен в последние годы. Нейросети прекрасны тем, что им достаточно показать, условно, что такое хорошо, а что такое плохо, чтобы получить желаемый результат. Например, нейронную сеть можно обучить распознавать на изображениях те или иные объекты — скажем, автомобили или собак. В ходе обучения ей показывают огромное количество картинок, где есть нужные объекты (положительные примеры) и где их нет (отрицательные примеры). В результате нейросеть получает способность верно определять нужные объекты на любых изображениях.

В «Яндексе» машинное обучение (в том числе и нейросети) используется повсеместно: оно помогает лучше понимать смысл поисковых запросов пользователей, строить оптимальные маршруты в «Навигаторе», с высочайшей точностью прогнозировать погоду и многое другое. А в технологии «Диско» (от слова discovery), которая находится под капотом «Яндекс.Радио», нейросети помогают находить новую интересную для пользователя музыку и подсказывать песни, которые будут созвучны его настроению.

Настроение в цифрах

«Яндекс.Радио» — сервис, который предлагает выбирать станции под настроение и лайками или дизлайками оценивать звучащую музыку. Чтобы сформировать такие станции на основе одного лишь абстрактного понятия настроения необходима помощь нейросетей. Именно они помогают из миллиона композиций отобрать треки, которые могут звучать на конкретной станции. Для жанрового радио такие треки отобрать довольно легко: достаточно, например, взять наиболее популярные песни в определенном жанре среди слушателей «Яндекс.Музыки» и предложить их пользователю.

Но что делать, если нужно отобрать треки для «весенней» станции? И что вообще понимать под «весенним» треком? На первый взгляд кажется, что ответить на второй вопрос могут только люди, поэтому для начала мы используем собственный сервис «Яндекс.Толока», позволяющий поставить большое количество несложных задач, за выполнение которых пользователи получают деньги. В нем мы просим пользователей сказать, считают ли они какие-то треки из нашей библиотеки весенними, и делаем из этого выборку. После этого в игру вступают нейронные сети, для которых такая выборка служит положительным примером, и каждую песню в ней они раскладывают буквально по кирпичикам. В итоге на основе этой выборки нейросеть способна оценить на соответствие теме и другие треки из нашей библиотеки.

Дальше начинается самое интересное. Когда у нас на руках есть готовая «весенняя» радиостанция, нам уже проще создавать новые подборки музыки, пусть даже и полностью противоположные по настроению: например, осеннюю или дождливую. А все потому, что нейросеть, на самом деле, понимает музыку в очень широком смысле. Настолько, что для человека такое понимание довольно сложно представить. Подкрепленная знанием о музыкальных жанрах и их составляющих частях, она видит даже такие особенности треков, которые мы никогда бы не заметили, но при этом они играют важную роль в создании настроения музыки. И этих особенностей очень и очень много. Жонглируя ими, наша заряженная нейросетями рекомендательная система с каждой новой радиостанцией все точнее определяет настроение треков, а для создания новых радиостанций требуется уже не так много пользовательских определений настроения, как в самом начале (хотя без них все равно не обойтись). Говоря простыми словами, нейросеть по-настоящему понимает, из чего состоит, например, восприятие «дождливости» у человека и может выразить числами то, что мы никогда бы не выразили словами.

Найти похожий

Недавно мы начали предлагать пользователям еще один способ открывать для себя новую музыку. Если вы, например, заслушали до дыр Can't Believe It исполнителей Flo Rida и Pitbull, «Яндекс.Музыка» может предложить вам песню куда менее известного исполнителя, и она будет похожа не только по жанру, но и по звучанию.

Сама по себе задача поиска акустически похожих треков действительно непростая, потому что понятие «схожести» музыки довольно условно. Для кого-то важно, чтобы был похож вокал, другой услышал интересный музыкальный инструмент, а третьему важен ритм.

Во время разработки технологий компьютерного зрения (те самые технологии, которые понимают, что изображено на картинке) мы в «Яндексе» заметили, что в процессе обучения нейросеть строит некоторое свое внутреннее представление изображения, и похожие представления соответствуют похожим по смыслу изображениям. Например, нейросеть может «разглядеть» в разных картинках белых кошек. Мы решили поступить аналогичным образом с музыкой. Казалось бы, что мешает нам просто брать и сравнивать разные треки: вот тут перед припевом бит ускоряется похожим образом, а здесь такая же партия саксофона в конце? Проблема в том, что музыки в мире много, а это значит, что есть и огромное число параметров, каждый из которых не так очевиден, как наличие в песни саксофонной партии, но при этом не менее важен.

Для решения этой задачи, как и в случае с «Радио», мы использовали метод обучения с учителем. Мы даем нейросети пример: вот это трек Can’t Believe It, его спектрограмма (мощность звукового сигнала в разные отрезки времени) выглядит так, а теперь определи, почему он считается танцевальным. Нейросеть понимает, например, что в какой-то момент в треке много высоких частот звука, а в другой момент, наоборот, преобладают низкие. И она начинает искать в спектрограмме другие такие зависимости. Это могут быть и не совсем понятные нам колебания звука, которые не факт, что действительно определяют наш запрос, а могут быть вполне очевидные вещи (например, смена ритма в середине песни). В итоге нейросеть переводит все эти особенности в цифры, а сами треки получаются представлены относительно небольшим набором чисел (от нескольких десятков до пары тысяч). Математически это представление выглядит как вектор, и теперь нам нужно всего лишь найти другие песни, чьи вектора будут похожи на вектор нашего трека.

Когда у нас есть несколько таких представлений, построенных разными сетями, возникает логичный вопрос, а как нам их сравнивать? Здесь снова не обойтись без помощи человека. Мы предлагаем людям послушать исходный трек и пару похожих, по мнению нейросетей, треков. А затем спрашиваем, какой трек из этой пары больше похож на исходный. После этого мы можем измерить, насколько точно решение алгоритма совпадает с оценкой людей и лучший из алгоритмов внедрить в «Яндекс.Музыку».

Электронный композитор

Разработанные нами на основе нейросетей алгоритмы и похожие разработки других компаний позволяют компьютерам лучше понять, как устроена музыка, и научиться воспринимать ее подобно тому, как это делает человек. Все это в перспективе позволит не только делать более качественные рекомендации в сервисах, но и создавать алгоритмы, которые смогут сочинять музыку. Сложно предсказать точное время появления таких алгоритмов, но сегодня мы уже понимаем, как это может работать. А это уже большое дело. Например, можно пытаться обучить нейронные сети составлять музыку подобно тому, как это делают люди в специальных программах — секвенсорах: выбирать музыкальные сэмплы, составлять из них последовательность, накладывать эффекты, но не генерировать сами исходные звуки. Задача выглядит вполне решаемой, но и для этого все равно понадобится помощь музыкантов: исполнители должны предоставить примеры таких последовательностей с наложенными эффектами, и тогда нейросеть научится генерировать свои треки. Пускай поначалу у них будет не самая сложная структура, но это в любом случае неплохое начало.

Совсем другое дело создавать музыку с нуля: здесь мы опускаемся на иной уровень абстракции, и такой задаче сеть обучить гораздо сложнее. Только представьте: одна секунда звука в виде волны в цифровом виде это 44 100 чисел. И чтобы сочинять музыку, алгоритм должен научиться понимать зависимости между этими числами на разных временных масштабах. Допустим, мы научились генерировать короткие и неплохо звучащие отрывки, но сложить целое произведение из них очень сложно. Иными словами, этюд на фортепьяно и симфония — это большая разница, и до сочинения нейросетями симфоний еще довольно далеко. Зато они уже неплохо справляются с имитацией авторского стиля в текстах песен, что можно увидеть на примере «Нейронной обороны», проекта сотрудников Яндекса, которые научили нейросеть сочинять тексты песен в стиле Егора Летова, а затем положили их на музыку.

В ближайшем будущем мы наверняка увидим еще много проектов, которые будут использовать нейросети и для написания текстов, и для генерации музыки. Сложно сказать, как это повлияет на искусство, но нейросети в составе рекомендательных сервисов на него уже совершенно точно повлияли: сегодня мы совсем иначе слушаем и открываем для себя музыку, этот процесс стал проще и интереснее, и это прекрасно.