06 февраля 2017

Технологии

Искусственный интеллект HeadHunter: как роботы будут искать персонал для крупнейшего онлайн-рекрутера

Елена Краузова Автор

Борис Вольфсон, директор по развитию HeadHunter, рассказывает о переходе главного поискового алгоритма портала о вакансиях на машинное обучение

Чат-боты – программы-собеседники, способные общаться с пользователем в мессенджерах, искать нужную информацию и выполнять несложные задания, - стали одной из самых горячих тем на мировом рынке стартапов в 2016 году. По данным Tracxn Research, в 2015 году в американские проекты, связанные с чат-ботами, проинвестировали $25 млн, а по итогам 2016 года эту цифру можно оценить в $ 58 млн. Чат-боты оказались не только поставщиками справочной информации (например, о погоде или об афише клубов на ночь), но и помощниками, например, в подборе работы.

Помогают они и работодателям, и соискателям. В начале 2016 года маркетолог Эстер Краудфорд создала чат-бота EtherBot — он рассказывает представителям hr-департаментах о карьере хозяйки и о ее знаниях языка, о хобби и любимых способах провести пятничный вечер. EtherBot может шутливо рассказать, как Краудфорд от изучения арабского пришла к продуктовому маркетингу для стартапов или как ей может пригодиться диплом специалиста по международным отношениям. Так что «человечный» чат-бот – хорошая замена достаточно сухим резюме и профилям в Linkedin, уверена Круадфорд. Теперь она предлагает каждому переделать свое текстовое резюме в чат-бота. C ней согласился Крис Мессина, изобретатель хэштега и бывший работник Google и Uber: его бот MessinaBot отвечает всем тем, кто пишет ему в Facebook, может дать простые ответы или, например, поделиться рецептами любимых коктейлей своего владельца.

Летом 2016 года агентство по поиску работы FirstJob выпустило чат-бота Мия. Мия не просто предлагает подходящие вакансии, но и проводит с кандидатом на вакансию и определяет точность ответов. Затем Мия передает информацию о соискателю агентству и работодателю, а пока те раздумывают – держит человека «на проводе» в курсе изменений его ситуации. В России собеседования проводил чат-бот от компании SuperJob для компании «Связной».

Однако интерфейсы чат-ботов — только верхушка айсберга технологий для работы с персоналом. «Бум» новых технологий в сфере hr был особенно ощутим в 2015 году, когда, по данным Deloitte, объем инвестиций в подобные проекты вырос на 60% и составил $2,4 млрд. Финансирование привлекают платформы для автоматизации процесса рекрутмента, системы управления талантами, приложения для командной работы, сервисы для корпоративного обучения. Новая волна инвестиций в hr-технологии началась в 2016 году и оказалась связана с технологиями машинного обучения, которые стали проникать в самые разные продукты стартапов. Системы с машинным обучением и технологиями искусственного интеллекта предполагают, что программы не отталкиваются от жестких заданных правил, а, обучаясь в процессе работы с данными, создают эти правила сами. Такие системы помогают лучше распознавать тексты, изображения и голосовые команды. Поэтому в сфере трудоустройства они позволяют, например, лучше сканировать резюме и описания вакансий, а также создавать программы-ассистенты, которые будут отвечать на распространенные вопросы и давать первоначальную информацию.

*обозревателю раздела Технологии в Forbes чат-бот предложил должность менеджера по коммуникациям в Chrome*

Российские компании тоже начинают использовать машинное обучение для рекрутмента. Сегодня о переводе на машинное обучение своего поисковика заявил HeadHunter. Forbes поговорил с директором по развитию компании Борисом Вольфсоном о том, как «роботы» могут изменить одну из самых «человеческих» сфер.

—

Как сегодня сервисы для поиска работы и найма персонала «стыкуют» работодателей и соискателей? Что принципиально нового дает машинное обучение?

— Мы привыкли, что сайты по поиску работы выдают вакансии по параметрам, заранее указанным работодателем в вакансии, а соискателем - в резюме. Но у такого подхода есть недостатки. Во-первых, часто бывает так, что проставив множество «галочек» в фильтрах, пользователь не видит многих подходящих ему предложений. Это связано с тем, что хорошая вакансия может быть опубликована с несколькими пустыми параметрами или не теми, которые изначально задал пользователь. Самый распространенный пример – зарплата. Если вы указываете минимальную зарплату в 100 000 рублей, значит, алгоритм точного поиска отсеивает вакансии с зарплатой в 99 500 рублей. Такой простой кейс решается расширением границ поиска по зарплате, но есть и более сложные случаи. Например, соискатель выбирает профобласть (или отрасль компании) для поиска в ней вакансий и в таком случае проблему решить не так просто.

Во-вторых, фильтры обычно пропускают вакансии, которые формально соответствуют параметрам, но на самом деле нерелевантны им. Например, фильтры могут плохо работать при подборе программистов. Описания вакансий для них могут быть очень похожими, но отличаться необходимым работодателю языком программирования — а только это делает вакансии совершенно разными с точки зрения соискателя.

И третья проблема - нет четкого принципа ранжирования вакансий, так что с какой начинать просмотр — непонятно. Как правило, соискатель начинает с первой. Но она ведь совсем не обязательно самая подходящая. Скорее всего, она просто опубликована последней.

Системы подбора вакансий с опорой на машинное обучение лишены всех этих недостатков, потому что они имеют дело не просто со стандартными полями и описаниями, а определяют, насколько вакансия действительно подходит человеку.

— Как работает система рекомендаций с искусственным интеллектом?

— Раньше она была жестко привязана к поисковым запросам (тегам), которые мы заранее задали как соответствующие каждой вакансии. А теперь мы, проанализировав историю пользовательских взаимодействий, обучили систему, которая отсортирует вакансии в том порядке, при котором вероятность отклика пользователя будет убывать. Чтобы обучить систему, мы смотрели, как наши соискатели с имеющимся резюме делают отклики, добавляют вакансии в избранное и т. д. В финальной обучающей выборке содержится около 130 млн строк, подсчитанные параметры для выборки занимают больше 100 гигабайт.

Теперь система знает, какие из объявлений каких пользователей чаще привлекают, и сможет выводить вакансии, которые с большой вероятностью заинтересуют людей. Затем можно отследить, какой процент людей, увидевших вакансию, перешли по ссылке, сколько в итоге успешно завершили сессию. Учитывая все эти данные, можно еще точнее предугадывать то, какое объявление заинтересует соискателя.

— Какие методы машинного обучения вы используете?

— Система обучается как функция от различных признаков пары «резюме/вакансия». Эти признаки включают самую разную информацию — в том числе соответствие специализаций, разница ожидаемой зарплаты и прочие критерии в вакансии. Среди признаков — и текстовые расстояния. Они помогают количественно измерить различия в текстах, которые машина «видит» как векторы из чисел. С большой натяжкой можно сказать, что это позволяет системе понимать смысл текста и подсчитывать, насколько эти тексты разные. Степень различия — и называется текстовым расстоянием.

Вся наша система делится на три основных блока:

1. Эвристический фильтр. Это базовый фильтр по региону и профобласти, который работает до применения модели машинного обучения, составленный вручную. Он представляет собой разумные предположения нашей команды специалистов по работе с данными о том, что соискателю интересны вакансии в его (и соседних) регионах и профобластях. Его задача — максимально сократить выборку имеющихся вакансий по соответствию простых параметроврегиона и профобласти из резюме и вакансий(регион, профобласть), сохраняя при этом большую долю «интересных» вакансий. Его задача - максимально сократить выборку имеющихся вакансий по соответствию простых параметров региона и профобласти из резюме и вакансий, сохраняя при этом большую долю «интересных» вакансий.

2. Быстрая фильтрующая модель. Она использует небольшое количество признаков для того, чтобы еще отсечь существенную часть нерелевантных вакансий

3. Сложная ранжирующая модель – модель, обученная на всём наборе признаков (всего их около двухсот). Эта модель уже не отфильтровывает вакансии, а только меняет порядок отображения того списка, который был получен от предыдущих моделей.

Для обучения ранжирующей модели мы используем версию градиентного бустинга над деревьями решений, адаптированную для задачи ранжирования (LambdaMART) бустинга над деревьями решений (один из методов машинного обучения, предполагающий определенную компоновку алгоритмов классификации и регрессии. — Forbes). Говоря проще: мы последовательно строим систему алгоритмов машинного обучения так, чтобы каждый новый из них компенсировал недостатки композиции всех алгоритмов-предшественников.

— А нашумевшие нейронные сети?

— Нейронные сети в качестве основной модели мы использовать не планируем, только для решения отдельных задач. Для нас больше подходят алгоритмы, основанные на деревьях принятия решений. На первых двух этапах составления рекомендаций мы используем простой эвристический фильтр по совпадению некоторых полей и простую модель на малом количестве признаков. Это позволяет сильно ускорить систему. Основные признаки, которые мы используем, – текстовые соответствия разных полей резюме и вакансий, а также всевозможные поля обоих документов. Например, мы проверяем, насколько совпадает желаемая должность в резюме и название вакансии, насколько отличаются зарплатные ожидания соискателя и зарплатные предложения компании. Но делаем это не жестко заданным алгоритмом, а при помощи машинного обучения и основываясь на данных.

Пока наша модель — только в ее первой версии. Мы нацелены только на идеи, которые можно реализовать не слишком дорого и при этом сильно улучшить качество рекомендаций и поиска. Например, обучение системы на нейронных сетях очень дорого (нужно специальное «железо», люди со специальными знаниями и много времени на эксперименты), и нет никакой гарантии, что они дадут прирост больше, чем более простая идея, которую ещё не успели попробовать, - например, анализ поведения соискателя.

Анализ поведенческих характеристик мы планируем использовать уже в этом году. Например, система может оценивать суммарный показатель популярности вакансии или работодателя. Тогда система сможет выдавать предложения: «люди, которые откликались на эту вакансию, так же часто откликаются на следующие: ...». Если говорить техническим языком, то будем использовать разные разложения матрицы резюме на вакансии. И, конечно, хорошо улучшить точность поиска может изучение истории предыдущих поисковых запросов соискателя.

— А как рекомендательная система персонализирует базу соискателей?

Система ранжирования откликов для работодателя работает похоже. Модель опирается на большее количество признаков, их список немного другой. Главное же отличие — в обучающей выборке и выдаче предложений: мы предсказываем вероятность того, что работодатель пригласит конкретное резюме на конкретную вакансию.

— Каковы дальнейшие перспективы использования машинного обучения — например, для работы с внетекстовыми элементами?

— С фото и портфолио пока система не работает, но не исключаю, что мы будем экспериментировать с этим в будущем.

— Насколько дорого для HeadHunter обошлось создание рекомендательной системы с элементами искусственного интеллекта?

— Мы инвестировали более 2 млн рублей, не считая инвестиции в серверную инфраструктуру. Мы рассчитываем, что затраты окупятся в течение полугода, максимум — полутора лет.

— Одной из проблем систем с опорой на машинное обучение остается необходимость серьезных инвестиций в вычислительные мощности. Для вас это были серьезные затраты?

— Для разработки понадобились новые серверные мощности для построения моделей, а для эксплуатации системы они нужны, чтобы поддерживать ее работу. Инвестиции в «железо» составили уже несколько миллионов рублей.

— Как оценивать эффективность подобной системы?

— Можно использовать разные поисковые метрики. Одна из главных – средняя успешность рекомендательных поисков в разных разрезах (например, только декстопная или только мобильная аудитория, только соискатели из Москвы или только региональные соискатели и т.д.). Постепенно внедряя систему, мы увидели, что успешность рекомендательных поисков растет. В среднем она улучшилась на 25%, а, скажем, в больших городах (в частности в Москве) удалось повысить число успешных поисков вдвое — так как здесь вакансий в большое. Также мы смотрели на «кликабельность» верхних объявлений (вакансий или резюме) в выдаче, который вырос до 30% (в зависимости от региона.)

— Каковы, на ваш взгляд, самые перспективные направления для внедрения машинного обучения в сфере HR?

— Надо сказать, что машинное обучение в России применяется не только в подборе вакансий и резюме (этим занимается и, например, Google, с их продуктом в альфа-версии Cloud Jobs API). Уже есть «пилоты» и в сфере других задач. Например, при анализе сотрудников для продвижения можно применять алгоритмы кластеризации данных. Они помогут увидеть тех рядовых сотрудников, которые попадают в кластер с коллегами выше по должности, — значит, именно эти люди должны стать кандидатами для повышения.

В целом в HR-сфере есть много областей, которые можно улучшить за счет автоматизации и позволить принимать решения с минимальным участием человека, основываясь на данных. Рекрутинг, наверное, самый яркий пример такой области. Так что нужно быть готовыми к тому, что в ближайшие годы находить для нас подходящие вакансии и принимать на работу будут машины: ранжирование откликов и система подбора вакансий на машинном обучении — это только первые шаги.

Но важно понимать, что в ближайшие годы профессия рекрутера никуда не денется, просто эти профессионалы научатся использовать предсказания машин для более эффективной работы. С другой стороны, измениться и поиск работы: соискатели не просто смогут находить более подходящую работу, а будут делать это быстрее и с меньшими усилиями. В то же время, для «неформатных» кандидатов, наверное, все станет сложнее.

— Кто станет драйвером инноваций на этом рынке — корпорации, HR-агентства, стартапы?

— На российском рынке мы практически не видим успешных инноваций, кроме автоматизации процессов. Есть некоторые HR-стартапы, но с единичными случаями реальных внедрений и системного использования заказчиками. Успешных стартапов у нас практически нет. Те из них, кто смогли пережить кризис 2014 года и продолжают искать нишу на рынке HR Tech, сосредоточены в основном в отборе соискателей (например, сервис видеорезюме VCV) и корпоративном обучении (Нетология, Eduson.tv - онлайн-курсы, я думаю, тоже справедливо относить к HR Tech).

Так что на мой взгляд, центром инноваций станут сайты по поиску работы. Я говорю так не потому, что я работаю в одном из таких интернет-проектов. Есть три фактора, которые способствуют этому. Во-первых, у них есть база лояльных клиентов, которые готовы тестировать новые ИТ-продукты на их самых первых этапах разработки и делиться своими данными, а затем - становиться платящими клиентами. Во-вторых, у таких компаний достаточно ресурсов и капитала. Стоимость таких проектов измеряется миллионами рублей, а если вы хотите экспериментировать много — в год на них будут уходить несколько десятков миллионов. Стартапам такое может быть сложно найти такие деньги. Третий фактор - нужна команда, которая способна как реализовывать data science проекты, так и понимать предметную область HR и рекрутинга. Это тоже есть у интернет-проектов по поиску работы. И наконец, у нас есть данные, которые могут быть полезны для создания моделей, способных делать качественные предсказания.

— Что удерживает российские компании от работы с технологиями машинного обучения?

— Главный фактор - отсутствие специалистов в этой области и собственно данных. Сложности, связанные с качеством самих технологий, вряд ли стоит считать ограничениями.

— Какие сторонние данные могут использовать платформы для поиска работы и насколько это безопасно? Социальная сеть «ВКонтакте» недавно через суд потребовала запретить продажу банкам данных о своих пользователях. А онлайн-площадки для рекрутинга столкнулись бы с такими проблемами?

— Сразу скажу, что мы не отдаем данные наших соискателей компаниям для целей, отличных от найма. У нас было достаточно много коммерческих запросов от банков и финансовых организаций о покупке данных соискателей — например, для кредитного скоринга. Мы ответили отказом на все такие запросы и будем делать так и дальше. Более того, у нас были случаи, когда компании пытались «втихую» качать данные наших соискателей не для зарплатных целей. Мы это быстро выявили и пресекли, благодаря антифрод-системам.

А если в целом говорить об использовании данных из социальных сетей в рекомендательных системах (в том числе на сайтах для подбора специалистов и поиска работы), то, конечно, здесь может идти речь только о работе с открытыми профилями пользователей. Мы тоже думаем об анализе открытых данных из профилей соискателей, но на этот шаг мы пойдем, только убедившись, что наша система умеет правильно находим совпадения в резюме и в профилях из социальных сетей.

— Одним из недостатков систем машинного обучения остается из слишком узкая специализация. В HR-cфере это заметно?

— Действительно, машинное обучение — это слабый искусственный интеллект. Не надо думать, что созданная модель может принимать решения в произвольных задачах. Но можно пытаться создать определенную инфраструктуру, которая позволяет повторно использовать отдельные части системы. Под инфраструктурой я имею в виду, например, набор задач, которые используются для одной модели и которые затем можно перенести в другую модель, повторно используя созданные наработки. Таким образом, система не станет мультизадачной, но сроки и стоимость разработки новых моделей сократятся: их частично можно будет собирать, как «конструктор», из готовых частей.

Также системы машинного обучения требуют определенного уровня поддержки и «постоянства». Например, при изменении на нашем сайте модель может начать работать хуже — нужно модифицировать систему, добавив новые параметры для анализа и заново обучив. Более того, если изменяется не интерфейс и структура сайта, поведение пользователей и их свойства (например, на площадку, благодаря новой маркетинговой стратегии, приходит новая, еще не изученная аудитория), то качество предсказаний модели тоже может измениться.

— В какие ниши в рекрутинге технологии машинного обучения будут проникать быстрее? Какие задачи технологии искусственного интеллекта, наоборот, еще долго не смогут решать лучше, чем человек?

Я думаю, массовый подбор специалистов и даже топ-менеджеров вскоре будет полностью автоматизирован. Но в целом я бы не противопоставлял машину и человека: в каждой части рекрутинга (и в HR в целом) будет их «симбиоз» в виде систем поддержки принятия решений. Важно, чтобы HR-специалисты научились в рамках таких «отношений» с машиной эффективно взаимодействовать.

Возьмем пример не из рекрутинга, а из обучения и развития, например. В самом простом виде программу для обучения и развития персонала разрабатывает T&D-специалист (training and development - Forbes) на основе своей интуиции и опыта. Но можно пойти дальше и проверить статистически, действительно ли сотрудники, прошедшие данную программу, начинают приносить компании больше выручки и прибыли. А это уже HR-аналитика — по известным в отрасли моделям (например, по модели Дж.Берсина). Но можно пойти дальше: с помощью машинного обучения составлять программы обучения с помощью алгоритмов, оптимизируя все те же метрики - выручку (или прибыль) с сотрудника, прошедшего обучение.

— Сможет ли машина понимать личные качества и компетенции человека? Насколько для систем искусственного интеллекта в HR важен эмоциональный интеллект?

— Для человека, который не является экспертом в HR, личные качества или, скажем, мотивация сотрудника кажется чем-то неосязаемым и неизмеримым. Но профессионалы HR-индустрии знают, что есть работающие психометрические инструменты, которые позволяют оценивать практически любой параметр человека. Например, личностный опросник OPQ32 от компании CEB SHL позволяет определить стиль поведения человека в профессиональной области. Он позволяет «измерить» человека по 32 параметрам: например, как человек анализирует информацию, насколько инициативен, насколько велик его творческий потенциал и насколько хорошо он работает в команде. Так что можно протестировать сотрудников и сделать портрет идеального сотрудника в соответствии с KPI или иными показателями. Этот портрет можно применять в подборе и в продвижении сотрудников, это с определенной вероятностью увеличит целевые показатели (ту самую выручку и прибыль) .

— Искусственный интеллект стал модной темой среди предпринимателей и разработчиков, это хорошо или плохо для развития подобных технологий?

— Да, можно сказать, что сейчас есть «хайп» вокруг AI и машинного обучения. Но он в большинстве случаев оправдан — подходы на основе машинного обучения дают хорошие результаты. Это нормальная ситуация, которую можно описать как «семантическую диффузию»: конкретный термин из одного контекста (в случае с «искусственным интеллектом» — термин технический) переходит в другой (термин бизнеса и маркетинга). С этим переходом значения термина размывается и меняется. Плюс этого процесса в том, что тысячи разработчиков и десятки компаний в России обратили свое внимание на машинное обучение и вкладывают в эту область своё время и деньги. Обратная сторона - некоторые компании в рекламных целях говорят, что применяют машинное обучение и искусственный интеллект (и особенно Big Data), когда речь идет о какой-нибудь банальной аналитике на достаточно небольшой выборке данных.