Компьютеризированный мир, в котором мы живем, провоцирует людей оставлять все больше электронных «следов». Они содержат информацию о личности, интересах, страхах, настроении, местонахождении, которая раньше была частной. Google, Twitter, Facebook, Wikipedia и другие элементы современной интернет-среды качественно изменили стратегии поведения пользователей в сети.
Для ученых это открывает гигантские возможности. Возникло мощное междисциплинарное исследовательское поле, в котором сотрудничают математики, биологи, физики, инженеры, экономисты, психологи, социологи, специалисты по коммуникациям. Такие исследования требуют серьезного математического аппарата, поскольку позволяют сделать гигантское число эмпирических наблюдений: не сотни или тысячи, а миллионы. Во многих иностранных университетах уже преподают Data Mining — искусство находить нужное в гигантских массивах данных (Big Data). Анализ поисковых запросов в Google позволяет предсказывать эпидемии, объемы торгов акциями компаний, динамику продаж автомобилей, жилья, направления туристических путешествий, цены в онлайн-торговле.
Интерес, проявляемый жителями 45 стран к прошлому и будущему, коррелирует с размером подушевого ВВП: чем богаче страна, тем больше интерес к будущему. Относительно хорошее состояние экономики позволяет быть оптимистичным и думать о будущем. А количество поисковых запросов о разных странах позволяет строить прогнозы о получаемых ими инвестициях: деньгам предшествует интерес инвесторов. И чем больше информации о стране получают пользователи, задав вопрос поисковику, тем значительнее будет приток инвестиций.
Google Trend может даже поспорить с финансовыми консультантами и управляющими. Три исследователя во главе с Тобиасом Прейсом из Warwick Business School, анализируя запросы в Google, разработали систему раннего оповещения о кризисах. Логика проста: принимая финансовые решения, участники рынков собирают информацию. Падению рынка предшествует период, когда рынок «в задумчивости», а инвесторы встревожены, не имеют четкой стратегии и пытаются понять, «к чему все идет». Это и фиксирует взрыв запросов с финансовой тематикой в Google. Прейс учитывал запросы со словами «долг», «акции», «жилье», «доход», «дефолт», «риск» — всего 98 слов. Самой прибыльной оказалась стратегия, построенная на запросе «долг», что неудивительно: кризис последних лет имеет долговую природу. Если количество финансовых запросов росло, команда Прейса открывала «короткую» позицию, если падало — покупала бумаги. Модельный портфель, основанный на запросах о долге, в 2004–2011 годах обыграл бы рынок, позволив получить доходность 326%. Разумеется, Прейс не рекомендует инвесторам повторять такой подход: рынки адаптируются к нашим знаниям о них, и такая стратегия эффективна, только пока о ней никто не знает.
Сети полезны не только для финансовых исследований. Ученые из департамента математики и статистики Университета Вермонта проанализировали эмоции пользователей Twitter. В работе «География счастья» они оценили удовлетворенность/неудовлетворенность авторов более 10 млн твитов в 2011 году с географическими тегами (373 города). Геотег — это присоединение к любому опубликованному сообщению (твит, запись в блоге или соцсети, фотография) географических метаданных, показывающих, где находится пользователь.
Результат — динамическая карта счастья, позволяющая оценивать уровень удовлетворенности жизнью в разных городах США в режиме реального времени. В обычных исследованиях удовлетворенности жизнью (один из пионеров такой работы — Gallup) информация обновляется не чаще раза в месяц.
Оценка эмоционального состояния людей по их репликам — непростая проблема. Машинные системы анализа до сих пор справляются с этим не очень хорошо. Они не испытывают проблем с анализом реплик вроде «мне хорошо» или «президент сошел с ума», но затрудняются понять более сложные высказывания. Вермонтские математики воспользовались «словарем эмоций»: пользователи Amazon’s Mechanical Turk Service проанализировали 10 000 слов, встречающихся в четырех источниках: Google Books, песенная лирика, The New York Times и Twitter. Они оценили каждое слово по шкале от 1 (несчастный) до 9 (счастливый). К примеру, «радуга» — одно из самых счастливых слов в этом списке (со значением 8,1), а «землетрясение» — одно из самых несчастных (1,9).
Не пытаясь оценить смысл каждого из 10 млн твитов (это требовало бы субъективной интерпретации высказываний), исследователи оценивали эмоции авторов по формуле, учитывающей позитивность слов, из которых состоит высказывание. Такая методика была предложена два года назад Питером Доддсом из Вермонта, который и придумал геденометр. Подход основан на аналогии: температура находящихся в комнате предметов может характеризовать температуру самой комнаты. Особенно если предметов (слов) в комнате много: если в ней только электроплита и холодильник (фраза короткая), возможны ошибки.
Самым позитивным штатом оказались Гавайи — благодаря таким «счастливым» словам, как «пляж», «море», и словам, относящимся к вкусной еде. А самый несчастный штат — Луизиана. Карты счастья составлены для 373 городов. Среди самых счастливых — города на побережье Флориды, Калифорнии, Северной и Южной Каролины. Довольно много печальных твитов на юго-востоке (Луизиана, Техас, Алабама, Джорджия, Миссисипи). Уровень счастья в городах резко уменьшается с ростом числа твитов на душу населения. Значит, в городах с наиболее технологически развитым населением (большинство твитов с геотегами делается со смартфонов) людям живется не так счастливо, как в более традиционных.
Из сопоставления вермонтских карт с традиционными социально-экономическими обследованиями видно, что уровень счастья положительно связан с размером доходов, возможностью работать из дома, образованием, наличием семьи и детей. С 30 апреля измеритель счастья доступен онлайн. В будущем, обещают ученые из Вермонта, сервис будет функционировать на нескольких языках, он научится анализировать не только отдельные слова, но и фразы, будет учитывать не только Twitter и сможет распознавать не только счастье/несчастье, но и другие эмоции — страх, гнев, удивление. Анализ твитов позволяет даже предсказывать, в каких городах будут расти болезни, связанные с ожирением. Люди там чаще пишут о том, что голодны, упоминают McDonalds и изжогу. В городах, где ожирением страдают меньше, чаще пишут о кафе, суши, ресторанах.
Полезен твиттер и для составления карт городских маршрутов, показывающих, по каким траекториям передвигаются жители крупных городов и сколько горожан находится в том или ином районе в определенное время суток. Городские траектории исследуются и по звонкам с мобильных телефонов, транзакциям с банковских карт при оплате общественного транспорта, «чек-инам» при помощи различных интернет-приложений (когда пользователь сообщает о своем местонахождении в кафе, отеле, на концерте и т. д). Такие исследования помогут сделать транспортные системы городов «умными». Плотность поездок в разные районы в течение суток сильно меняется. Но пока транспортные системы учитывают это слабо. Из траекторий городских маршрутов следует, что общественный транспорт в зависимости от времени суток должен корректировать не только частоту, но и маршруты (!) движения. В будущем маршруты транспорта, наверное, будут меняться в течение суток, а информацию о движении можно будет получать через приложения смартфонов, предполагает Марта Гонсалес из лаборатории мобильной связи и сетей MTI.
«Большие данные» из соцсетей полезны и для разведчиков. Ричард Колбау и Кристин Гласс из Sandia National Laboratories придумали, как использовать сети для прогнозирования процессов диффузии «вирусных» идей и поведения, раннего оповещения о вспышках болезней и т. д. Они строят сложные математические модели, учитывающие внутри- и межгрупповые связи людей в соцсетях, наличие лидеров и ведомых, центра и периферии внутри каждой группы. Методика проверена на распространении мемов (высказывание, картинка, видео и т. д., спонтанно приобретшее большую популярность) по базе данных осени 2008 года. Частная и социальная жизнь немыслима без интернета, и стоит ли удивляться, что анализ оставленных в нем следов может сказать о нас почти все?