Горючее для двигателя: почему сейчас данные важнее алгоритмов
Термин «большие данные» (Big Data) был введен в обиход еще в прошлом веке, но популярность в деловых кругах и среди практиков информационных технологий получил лишь после 2006 года, когда с легкой руки британского математика и предпринимателя Клайва Хамби по миру разлетелась фраза: «Данные — это новая нефть». Неудивительно, что с начала текущего века стала также расти и популярность междисциплинарной области Data Science, а сама эта область на пересечении анализа данных, компьютерных технологий и информатики сумела доказать свою важность и полезность в бизнесе.
Благодаря впечатляющим достижениям математиков и программистов алгоритмы работы с данными, в особенности алгоритмы машинного обучения, к которым прилепился не очень удачный ярлык «искусственный интеллект», стали объектом куда большего внимания, чем собственно данные. Более того, работа с данными в любой компании требует все больших ресурсов и сложной инфраструктуры как собственной, так и арендуемой.
Сейчас, во времена всплеска неопределенности и переживаемого многими бизнесами кризиса, очень важным стал вопрос приоритизации трат на поддержание часто дорогой информационной инфраструктуры. Ситуация усугубляется и тем, что нередко приходится мигрировать с зарубежных IT-решений на отечественные. Распутывая в авральном порядке клубок неожиданных проблем IT-инфраструктуры, про данные часто забывают, поскольку в фокусе оказываются горящие проблемы закупок «железа», лицензий на софт, процессы миграции и обеспечения бесперебойности операционной деятельности, завязанной на цифровых решениях.
И вот здесь мой опыт и опыт тех компаний, в которых я переживал предыдущие кризисы, в особенности кризисы 1998-го и 2008 года, учит: про сохранение накопленных данных и обеспечение непрерывности поступления новых данных в процессе проживания кризиса думать надо в первую очередь. В кризис внимание к данным оказывается важнее внимания к алгоритмам: алгоритмы для анализа данных могут на какое-то время использоваться простейшие. Более того, использование изощренных алгоритмов машинного обучения для разнообразной предиктивной аналитики именно в нестандартной ситуации нового кризиса может приводить к тяжелым ошибкам: достаточно вспомнить, как грубо ошибались модели, которые появились в первые месяцы пандемии, насколько далеки от реальности оказались все их прогнозы развития пандемии. Попытки использовать методы машинного обучения в отсутствие адекватных массивов обучающих данных (а для нового кризиса это по определению так и есть) гарантируют появление ошибочных прогнозов, которые легко могут привести к ошибочным управленческим решениям. Кризисное управление данными должно обеспечивать три пункта:
- Сохранение всех исторически накопленных данных и их срочный перенос в хранилище с минимальными технологическими, юридическими и политическими рисками.
- Тщательное и регулярное резервное копирование всех накопленных и продолжающих накапливаться данных и в то же время защита их от несанкционированного доступа. Мы уже наблюдаем участившиеся атаки на информационную инфраструктуру со стороны разных хакерских групп. Частым объектом таких атак являются именно данные. Если поврежденный софт можно переустановить или заменить на аналогичный, то утраченные данные заменить нельзя ничем, и атакующая сторона прекрасно это понимает (попутно учитывая еще и возможность кражи данных, представляющих рыночную ценность).
- Переход к упрощенной кризисной аналитике, основанной на прозрачных и легко интерпретируемых моделях, работающих с данными в режиме реального времени и не требующих обучения.
В качестве реального примера важности последнего пункта приведу историю времен кризиса 2008 года. По мере развития кризиса экономисты и традиционные аналитики принялись рассматривать спектр сценариев, в моду вошли сравнения динамики кризиса с буквами латинского алфавита: L-образный пессимистический вариант, V-образный быстрый отскок или U-образное задержанное восстановление, W-образный повторный кризис. Неприятность состояла в том, что каждая из предложенных моделей имела авторитетных сторонников, хорошее теоретическое обоснование и убедительные статистические выкладки в свою поддержку. Дополнительно огорчал тот факт, что экономические данные, на которых строились эти научные модели, поступали с задержкой, измеряемой месяцами. «Яндексу» нужно было принимать оперативные решения, и, в частности, важнейшее решение о том, как поймать момент начала восстановления, вовремя вложить еще сохранившиеся ресурсы в отработку растущего спроса и первыми представить новинки на начавшем восстанавливаться рынке.
В результате мозгового штурма было решено отслеживать потребительское поведение пользователей интернета, отражающееся в статистике контрастных поисковых запросов. Например, отношение мощности запросов, связанных с покупкой автомобиля, к запросам, связанным с его ремонтом, или отношение запросов про заказ пиццы к запросам про рецепты пиццы. Такого типа контрастных запросов, характеризующих переход потребителей от трат к экономии, в разных областях набрали достаточно много, а перевзвешиванием добились, чтобы наблюдаемая динамика полученной композитной метрики на ранней стадии кризиса воспроизводила динамику серьезных экономических метрик. После этого построенная метрика «кризисности» в головах людей, выражающаяся в их потребительских запросах, стала рассчитываться еженедельно. Она-то и позволила нам поймать начало послекризисного восстановления спроса и оценить его скорость задолго до того, как о выходе из кризиса заговорили ученые и традиционные эксперты. Любой руководитель бизнеса поймет, насколько важным и в итоге выгодным было получить знание о начавшемся выходе из кризиса за пару месяцев до того, как это знание стало доступно всем.
И в сегодняшнее трудное, полное неожиданностей и не имеющее аналогов время полезно помнить: данные похожи на нефть еще и тем, что из них при правильной обработке можно получить топливо для бизнеса. И поэтому они являются стратегическим ресурсом, который ни в коем случае нельзя потерять в ходе антикризисных мероприятий. В противном случае есть угроза, что в тот момент, когда надо будет включить форсаж для выхода из пике, двигатель остановится без горючего.
Мнение редакции может не совпадать с точкой зрения автора