Врешь, не пройдешь: ИИ научили определять фейковые новости лучше человека

Александр Баулин Автор

Новый алгоритм отсеивания фальшивых новостей может положить конец распространению выдумок в интернете

Ученые утверждают, что смогли разработать алгоритм, который определяет фейковые новости лучше, чем человек. Работа проведена специалистами по компьютерным наукам университета Мичигана и факультета психологии университета Амстердама. На данный момент она не опубликована в научных журналах, но представлена в архиве препринтов Arxiv.org.

Фейковые новости стали одной из острейших проблем новостных агрегаторов, поисковых сервисов и соцсетей. Борьбой с ними озабочены такие гиганты, как Google, Facebook и «Яндекс». Разработанная система может помочь интернет-гигантам в автоматическом отсеивании нерелевантных новостей или понижении их в поисковой выдаче.

Исследователи создали информационную систему и показали, что она быстрее и точнее людей справляется с определением фейковых новостей. Программы выявили 76% фейковых новостей, тогда как живые участники смогли определить только 70%. При этом лингвистический анализ может быть применен для обнаружения свежих фальшивых новостей, истинность которых еще нельзя проверить по другим источникам.

Специалист университета Мичигана по компьютерным наукам профессор Рада Михалча (Rada Mihalcea) отметила, что созданные продукты могут быть важным инструментом для сайтов, которые сражаются с фальшивыми материалами, создаваемыми ради кликов или манипуляции общественным мнением.

Ученые указывают, что сейчас агрегаторы и соцсети для отслеживания фальшивых историй обычно используют штат редакторов, которые не могут угнаться за потоком новостей. Кроме того, верификация многих материалов требует использования сторонних ресурсов и не всегда есть нужная информация о свежих явлениях. Из-за этого фейковые новости успевают распространиться и нанести осязаемый ущерб обществу.

Для обнаружения лжи в историях исследователи использовали лингвистический анализ, учитывая грамматическую структуру текста, пунктуацию и т. п.

Михалча отмечает, что существующие средства лингвистического анализа письменной речи уже стали повседневностью. Сложностью было создать именно детектор фальшивых новостей, а также подобрать правильные данные для тренировки алгоритма. Дело в том, что фейковые новости быстро появляются и исчезают, поэтому их трудно собирать. Проще взять пародийные новости, на которых специализируются определенные сайты (исследователи приводят пример The Onion, а в России примером может быть «Интерсакс»). Но ирония и абсурдные утверждения, используемые в них, мешают обучению алгоритмов, задача которых обнаруживать именно фальшивые новости, подделывающиеся под реальные.

В результате научный коллектив собрал собственную базу фейковых новостей с помощью команды помощников, которые собирали проверенные новости и превращали их в поддельные. Так это делается в реальной жизни ресурсами, которые зарабатывают деньги за счет кликабельных материалов. Для набора помощников использовался сервис Amazon Mechanical Turk. В результате исследователи накопили базу из 500 реальных и фальсифицированных новостей.

Используя пары из реальной и придуманной новостей, исследователи обучили алгоритм, который затем был проверен на новостях из интернета, где он успешно распознал 76% фейковых материалов. Исследователи объявили о свободном доступе как к созданному движку (это норма в ИТ-мире), так и к базе данных (это редкость), на которой проводилось обучение. В дальнейшем планируется снабдить базу данных комментариями и мета-данными, показывающими, на каких элементах новостей происходило обучение.

Хотя распознавание фейковых новостей актуально, стоит отметить, что ученые в своей работе использовали весьма «рафинированный» случай явно фальшивых новостей. Они надеются с помощью своего движка вычислить и случаи манипуляции общественным мнением. Но американские соцсети в качестве примеров постов, с помощью которых якобы Россия пыталась влиять на выборы в США, приводили весьма простые правдивые утверждения, которые могли бы быть оставлены и местными жителями. Кроме того, утверждения, например, о территориальной принадлежности Крыма могут в разных странах иметь совершенно различный манипулятивный потенциал.