Большие данные на продажу: как заставить всех делать то, что вам надо
Большие данные сделали возможным существование таких компаний, как Facebook и Amazon. Возможно, большие данные их и погубят. Forbes обсудил технологии будущего с исследователем в области Big Data и автором одной из самых популярных книг об этом Think Bigger Марком ван Рейменэмом.
Какое влияние сейчас Big Data оказывает на жизнь людей?
Мы живем во время, когда общение людей сменяется коммуникацией машин между собой. Это момент смены парадигмы: условно, компании, которые продают автомобили, должны осознать, что на самом деле их основная работа заключается в аналитике больших данных. Их главная задача — обеспечить перемещение людей из пункта А в пункт Б.
Cambrige Analytica — не является дата-брокером в полной мере. Дата-брокер — собирает информацию и продает аналитику другим компаниям. По такой схеме работают, например, Axiom и Experian. Cambrige Analytica проводили аналитику и в большей степени специализировались на таргетинге, консультируя Трампа.
У меня нет статистики, какие компании и для чего используют эти технологии. Но сегодня нет компаний, которые так или иначе не собирали бы данных. Есть три типа аналитики: первая — описательная. Это все равно что смотреть в зеркало заднего вида и анализировать то, что уже произошло. Вторая — предсказательная аналитика. Своего рода система навигации в вашем автомобиле, которая дает вам советы по кратчайшему маршруту. И третья — предписывающая аналитика — когда вы сами в зависимости от своих знаний и предпочтений выбираете дальнейшие действия. Все больше и больше организаций используют предсказательную и предписывающую аналитику.
Один из бывших сотрудников Cambrige Analytica Александр Коган говорил, что алгоритм его теста на определение пяти типов личности часто ошибается. Теперь Cambrige Analytica утверждает, что их алгоритм мог четко рассчитать таргетинг рекламы в Facebook, что способствовало победе Трампа на выборах. Насколько точны прогнозы, сделанные на основе больших данных?
Как я понимаю, Cambrige Analytica хотя и стала известной, но не является корректным примером. Полноценный дата-брокер собирает информацию и продает аналитику другим компаниям. По такой схеме работают, например, Axiom и Experian. Cambrige Analytica в большей степени специализировались на таргетинге, консультируя Трампа. Что касается точности прогнозов Cambridge Analiytica, то, насколько я понимаю, их интересовало другое: как только человек давал свое согласие на обработку данных, CA больше не интересовали никакие тесты.
Давайте предположим, что все собранные данные были верны. При этом нет никакой гарантии, что пользователи реально шли голосовать за Трампа или кого угодно другого.
Но я думаю, этот механизм действительно работал. Что происходит в супермаркетах: компании анализируют продажи и предлагают соответствующие акции и скидки. Если покупатель не пришел и не воспользовался акцией, значит вы ошиблись в первоначальных расчетах. Но если вы предлагаете нужный продукт в нужное время нужному человеку по хорошей цене, то этот механизм работает безотказно. Для этого нужно узнать, кто ваш покупатель, и вы начинаете собирать Big Data. Это и есть пример предписывающей аналитики.
Персонализированная система рекомендаций увеличивает доход Amazon до 30% в год. Если это работает для Amazon и Walmart, почему это не должно работать для Cambridge Analytica?
В социальных сетях мы не те, кем являемся на самом деле: мы те, кем мы хотели бы казаться. Как алгоритм за этими данными может распознать реальные интересы пользователя?
Facebook очень нарциссичен. Это наиболее совершенная модель нас. Но для CA это было не важно: для них ваша страница в Facebook — это законченный продукт. Когда вы ставите лайки, вы показываете, что вам нравится, даже если вы просто хотите кому-то угодить или ставите лайки всем подряд. Система оценок — невероятно мощная вещь! Вы не только показываете свое предпочтение, но и даете алгоритму проанализировать эти корреляции и создать точные модели поведения, предсказать, на что вы обратите внимание — на определенный формат, на определенных людей или на тематику.
В 2012 году была скандальная история с несовершеннолетней беременной девушкой, которой сеть Target начала присылать купоны на товары для беременных. Ее отец не знал, что она на самом деле беременна, и обвинил сеть в том, что она стимулирует школьниц к рождению детей. Кажется, тогда многие впервые осознали мощность этого инструмента.
Проблемой стало то, что аналитики узнали о беременности девушки раньше ее родителей. Это этический вопрос, а не технический: аналитика сработала безошибочно. Дело в том, что все люди покупают примерно одни и те же товары. Если вы вдруг купили товар из категории, которой никогда не пользовались, для этого всегда должна быть какая-то причина. Собирая данные, магазины могут предположить, что произошло в жизни человека: переезд, ремонт, беременность или что-то еще.
Скандальных примеров в этой сфере немного, но они случаются. Один из них — твиттер-бот компании Microsoft. Знаете, есть такой закон Годвина: он гласит, что, вероятность упоминания Гитлера в любой интернет-дискуссии стремится к единице по мере увеличения количества комментариев. У бота Tay Tweets не было критического мышления. Поскольку он учился на комментариях своих собеседников, он быстро продемонстрировал этот закон в действии, начав писать расистские и нацистские комментарии. Его пришлось отключить. Но эта ситуация еще раз показала, что остается много вопросов о том, как подобные технологии будут использоваться.
Получается ИИ может вести себя некорректно. Еще один пример — недавно Google озаботился проблемой толерантности, расизма и дискриминации у искусственного интеллекта. Есть ли у ИИ право на ошибку?
Да, конечно. Это зависит от того, какие данные и какой алгоритм использовать. Машинное обучение является частью ИИ и базируется на больших данных. Машину обучает человек, хотя есть также и глубокое обучение, когда машина обучается сама — это еще одна ветвь. Итак, представим, что вы программируете алгоритм для расчета зарплаты. Он определяет, что женщины по статистике получают меньше мужчин. Тогда на основании этой статистики я буду вынужден предложить женщине более низкую зарплату вне зависимости от ее компетенции. Это не правильно, но это означает, что если ИИ учится на некорректных данных, то будет формировать неправильные алгоритмы.
В мае в Европе вступит в силу закон о хранении персональных данных GDPR. Как это повлияет на работу с большими данными?
Я считаю, что благодаря этому закону пользователи получат больше прав. Сейчас вся власть над данными у компаний — они их собирают и анализируют. С GDPR пользователи смогут контролировать то, как именно компании распоряжаются их данными. Компаниям придется объяснять с какой целью, они это делают. Сейчас мы не имеем никакой возможности повлиять на это, поэтому я считаю, что такой закон просто необходим. Например, если бы GDPR действовал, Cambridge Analytica не могли бы получить данные пользователей.
Мы сами всегда даем согласие на обработку наших данных, даже не читая условия соглашения — это общеизвестный факт. Вы же не думаете, что люди станут читать их внимательнее?
Люди не станут читать соглашения — они очень сложные и непонятные. Но я надеюсь, что в будущем у каждого человека будет абсолютный контроль над своими данными. Сейчас компании пользуются информацией о вас совершенно бесплатно. А теперь представьте, что компании должны будут платить за персональные данные вам, а не каким-то дата-брокерам. Это изменило бы всю модель взаимоотношений. Если вы захотите удалить все свои данные, то сделаете это в один клик. Думаю, такой контроль может быть организован с помощью блокчейн-платформы.
Стоит ли в таком случае обвинять Цукерберга, если мы сами не читаем пользовательских соглашений?
Facebook нарушал конституцию США. (Интервью проходило до слушаний Марка Цукерберга в Конгрессе — Forbes). Можно сколько угодно препираться на счет того, какие данные были переданы третьим лицам и какие именно законы это формально нарушало. Проблема в том, что все эти правила непрозрачны. Фактически мы давали согласие на то, чтобы наши данные собирались, но не позволяли продавать их кому-то еще. Когда Cambridge Analytica предлагала вам тест, и вы соглашались на условия о передаче своих данных, вам никто не говорил, для чего именно они будут использованы. Facebook знает нас очень хорошо. И продает нас как очень качественный товар. За большие деньги. Поэтому ваши данные фактически не являются персональными. Вы не можете их удалить, даже если хотите, и вас заставляют смотреть рекламу, даже если вы не желаете ее видеть.
У вас нет аккаунта на Facebook?
Конечно, у меня есть аккаунт! Но я им не пользуюсь.
Как государства относятся к тому, чтобы у пользователей был полный контроль за их персональными данными?
Нынешняя система слишком централизована, поэтому в настоящее время вы не можете скрыть ничего от государства. Но я верю в блокчейн, который сможет изменить эту ситуацию. Должно появиться сообщество, которое поддержит эту идею.
Мы начали разработки платформы, которая будет называться Discovered, с помощью которой можно будет удалить всю информацию о себе из всех соцсетей. Но пока что находимся на очень ранней стадии: нам потребуется еще 1-2 года и очень много денег.
В России, например, государство хочет лишь усилить этот контроль и требует ключи шифрования от мессенджера Telegram. Как вы это оцениваете?
Да, я слышал об этой истории. Государство хочет собирать всю информацию, и я бы сказал, что этого делать не нужно. Разумеется, мне как пользователю этого бы не хотелось. Но все зависит от ситуации.