Генеральный директор Social Data Hub Артур Хачуян — о том, зачем секс-шопы собирают информацию о пользователях соцсетей и как вычислить наркоторговцев через «Авито»
Сбором данных уже никого не удивить: теперь их все собирают и хранят. Но данных все равно не хватает. При этом почему-то многие до сих пор недооценивают соцсети, считают, что это какая-то ерунда, что там люди пишут сплошные глупости, которые не имеют никакого отношения к реальной жизни. Но на самом деле это невероятно ценный, абсолютно открытый источник данных.
В России 146 млн жителей, и о 138 млн из них есть открытая информация. 98 млн зарегистрированы в социальных сетях. Ежедневно в сеть выкладываются 12 млн фотографий. И вся статическая информация о том, что они (вы) постили, лайкали, смотрели, — все это сохраняется. Компания делает из этого выводы. Или антивыводы.
Это один из самых увлекательных вариантов применения анализов социальных данных. Вот, например, ситуация: девушка зашла в магазин, и ей сразу предложили платье. Но на самом деле, в этот момент были проанализированы все ее фотографии в инстаграме. И даже то, насколько цвет верхней одежды зависел от ее настроения на протяжении последних пяти лет.
Да, здесь действительно прослеживается зависимость: у многих покупателей женского пола цвет верхней одежды, которую они выбирают, очень серьезно зависит от эмоционального окраса публикации. У мужчин — нет.
Таков средний пользователь российских социальных сетей и аудитория, которая его окружает. Благодаря ведению всех этих новых интегральных и модульных лент соцсетей, каждый из них видит какую-то определенную информацию об окружающих.
Вы можете собирать данные своими силами. Источников на самом деле масса: какие-то открытые, какие-то закрытые — игры, сайты знакомств, ЕГРН, ЕГРЮЛ, ФССП, ЦИАН, «Авито» и так далее. Про кого-то узнать можно немногое. Фамилию, например. А про кого-то вплоть до порнографии, которую человек смотрит. Кстати, это одна из самых занятных метрик: по статистике шести банков, если женатый мужчина смотрит профайлы молодых девушек в социальных сетях, то с вероятностью 85-87% он заинтересуется кредитным предложением. Интересно, правда?
А еще есть приложение для знакомств. Там люди всегда раскрывают реальные интересы, публикуют реальные фотографии. Главный из недооцененных ресурсов — это «Авито». По статистике, наркоторговцы, о которых, как правило, нет никакой дополнительной информации, кроме номера телефона, засвечиваются на «Авито». Они, как правило, когда-нибудь что-нибудь там размещали. Соответственно, по этим объявлениям, можно понять, кто этот человек.
Из открытых источников можно достать огромный объем информации. Иногда метрик настолько много, что они начинают портить эту модель: какие-то параметры анализа цифровых следов могут пересекаться, но при этом для реальной рекламной кампании никакой пользы эти корреляции не несут: например, статистика говорит, что 95% женщин, которые покупают зимнюю резину, — блондинки.
Пока что российское законодательство не запрещает хранить у себя историю всевозможных цифровых активностей граждан России. 80–90 % неочевидных параметров практически в любом бизнесе могут показать много интересного: на первый взгляд от них ничего не зависит, хотя на самом деле зависит очень многое. Собственно, к этой полезности мы и стремимся. Мы ушли от того, что люди научились собирать большие данные, и пришли к тому, что на основании собранных данных мы можем делать нормальные и значимые прогнозы и наконец-таки уже начать предлагать людям действительно нужную информацию, которую они смогут эффективно использовать. Это очень интересно, но не всегда очень этично.
Мы с вами понимаем, что если вам дарят бесплатно какой-либо промо-код, то это не случайно: это означает, что некий алгоритм оценил потенциал новой аудитории для привлечения. Лучше всего это работает с едой или с молодыми родителями. Молодые родители — это самая активная аудитория в России. Если собрать все, что пишут молодые мамы Российской Федерации в интернете, из этого можно было бы написать роман. Соответственно, бережно собрав эту информацию, ее можно как-то использовать.
Целей может быть масса: подбор товаров, прогнозирование продаж магазинов на основании сегментации и идентификация аудитории. Но может получиться так, что на основании всех этих параметров сегментации аудитории на какие-то группы окажется, что вы ничего не знаете о своем реальном клиенте. Или, например, вы можете напугать клиента своей осведомленностью. Вот, к примеру, провальная история крупнейшей в России сети секс-шопов: они решили провести эксперимент и сделали форму на сайте. Когда человек заходил на сайт, ему предлагалось подождать несколько минут, после чего сайт полностью подстраивался под его материальные интересы. Под каждой категории товаров было написано почему ему показывают именно этот товар — потому что он состоял в какой-то группе, потому что он пользуется услугами таких-то сервисов и так далее. Но вовлеченность покупателей этого магазина за три месяца тестирования не увеличилась: люди сразу пугались, что за ними следят, и закрывали сайт.
Поэтому на сегодняшний день наша задача — понять, насколько эффективна для бизнеса этичность, но вопрос этики пусть каждый решает сам.
И еще кое-что о безопасности использования этих данных. Это второй по популярности вопрос, связанный с большими данными. Первый — «Почему мы до сих пор в тюрьму не сели?».
На самом деле текущее законодательство вроде бы не очень лояльно относится к сбору и обработке персональных данных. Но только если это оператор персональных данных. Надеюсь, что те из вас, кто будет заниматься обработкой цифровых данных пользователей, тоже не являются операторами персональных данных: в противном случае, если вы не раскроете конечному клиенту источников этих данных, вы всегда можете продавать аналитику как свое личное экспертное мнение.
В Европе сейчас популярная шутка, что у нас, мол, не датасайнтисты сидят, а гадалки с хрустальным шаром. Так будет до тех пор, пока вы клиента уверяете, что нет разницы, каким путем была получена эта информация. Но что делать, если 99% знаний о людях, которыми обладают мобильные операторы или банки, можно достать из любых источников.