Следи за речью: насколько может быть эффективен мониторинг Рунета от Роскомнадзора
Антология слежения
«Вепрь» — не первая система мониторинга интернета, которую создает РКН. В сентябре 2021 года подведомственный ему Главный радиочастотный центр (ГРЧЦ) провел конкурс на разработку информационной системы «Мониторинг интернет-ресурсов» (ИС МИР-1) — автоматической системы поиска запрещенной информации в СМИ и соцсетях (такой, как признаки пропаганды экстремизма и терроризма, наркотиков и призывы к суициду).
Выиграла этот тендер компания «Вектор Икс». Сообщалось, что она получит на создание первого этапа этой системы 57,7 млн рублей. Через год Роскомнадзор решил сделать еще одну систему мониторинга запрещенной в Рунете информации — «Окулус». Она, согласно техзаданию, анализирует уже изображения и видео, переписки в общих чатах и материалы каналов мессенджеров и др.
Тогда же ГРЧЦ разместил и тендер на разработку системы «Вепрь». Задача этой системы еще сложнее — искать в интернете и СМИ «точки информационной напряженности», как указано в техзадании к тендеру. Под такими «точками» подразумеваются «фейки», которые могут причинить вред гражданам или имуществу, а также информация, способная нарушить общественный порядок и угрожать безопасности инфраструктурных объектов. Под это определение попадает и любая другая информация, которая может составить угрозу для «личности, общества и государства», указано в техзадании.
Планируется, что «Вепрь» будет собирать все виды контента — текст, аудио, видео, изображения. «Вепрь» должен охватывать ресурсы с аудиторией не менее 1 млн человек ежедневно, а также онлайн-платформы, включая форумы. Предполагается, что система будет подвергать анализу не менее 20 000 медиаматериалов в сутки в интернете, причем не позднее чем через 12 часов после ее появления, а также охватывать публикации не менее 300 СМИ не позднее, чем через 20 минут после их появления.
Все найденные инциденты система должна собирать в карточки со ссылкой, датой и временем публикации, хештегами, именами авторов, владельцев платформы и хостинга, а также количеством просмотров и лайков. На основе собранных данных «Вепрь» должен составлять аналитические отчеты, а также позволять искать необходимые инциденты по заданным критериям. Предполагает «Вепрь» и функцию прогнозирования распространения таких «фейков», а также выявления опасных медиакампаний в Рунете, негатива, оскорблений в отношении заданной темы или человека, определения «информационной повестки», обнаружения бот-сетей.
Тендер на «Вепрь» выиграл единственный его участник — компания из Санкт-Петербурга ООО «НеоБИТ», работающая в сфере информационной безопасности. «НеоБИТ» предложил выполнить заказ за 30 млн рублей — это половина от начальной цены лота. В компании Forbes подтвердили, что ведут работу над системой «Вепрь» «в соответствии с договором с Главным радиочастотным центром Роскомнадзора», добавив, что пока она не завершена, отказавшись от дальнейших комментариев.
«Вепрь» с «Окулусом» входят в единую систему мониторинга информационного пространства. «Окулус» запущена в январе 2023 года, первые модули системы «Вепрь» проходят внутреннее тестирование, запуск запланирован на вторую половину 2023 года, рассказали в ГРЧЦ и РКН.
ИИ на посту
Под «потенциальными точками напряженности» в сети, находить которые должен «Вепрь», вероятнее всего, подразумевается опасная концентрация информации в СМИ и социальных медиа, которые могут спровоцировать акции протеста или другие проявления недовольства со стороны большого числа граждан, рассуждает руководитель департамента информационно-аналитических исследований компании T.Hunter Игорь Бедеров. На российском рынке присутствуют системы схожего назначения («Медиалогия», «Крибрум», СЕУС, «Аваланч», «Демон Лапласа»), добавляет он. Кроме этого, использование расширенных операторов в поисковых системах и генераторов RSS-лент позволяет «буквально на коленке и бесплатно» создать схожий по функционалу мониторинговый центр.
Инструменты анализа и прогнозирования популярности тем и определения тональности сообщений уже используются в сервисах аналитики теле- и радиовещания и создания рейтингов цитируемости СМИ, отмечает ведущий научный сотрудник Института искусственного интеллекта AIRI, директор центра технологий ИИ «Сколтеха» Иван Оселедец: «Из ТЗ следует, что создатели планируют объединить несколько программ, решающих различные задачи, в одну систему».
Подобные задачи по объединению инструментов мониторинга в большую систему уже появились в мире. В свое время активно обсуждались разработки компании Palantir (один из крупнейших американских разработчиков ПО для анализа данных, в том числе для спецслужб), напоминает Оселедец: «В 2016 году организация приобрела стартап Kimono Labs, разработчика «технологии создания программного захвата структурированных данных с веб-сайтов». Любопытно, что публичный сервис Kimono в результате сделки был немедленно закрыт, а в мае фирма получила пятилетний контракт на $222 млн от Командования специальных операций США. Ряд аналогичных указанным задачам практик внедрен и в социальную сеть Facebook (принадлежит компании Meta, организация признана экстремистской и запрещена в России) на основе агрегированных данных о постах пользователей, замечает Иван Оселедец.
При создании таких систем главная проблема — обучить нейросеть оценивать информацию, то есть распределять ее по категориям риска, считает Бедеров. Также сложно, добавляет он, обучить нейросети не выдавать постоянно ложную тревогу практически по любому поводу. По словам эксперта, чаще всего проблема «обучения» такой нейросети решается наймом штата сотрудников, которые вручную распределяют инциденты по категориям. «Если в любом случае нужен штат аналитиков, нет смысла переплачивать за квазиумные системы. По крайней мере на данном этапе», — считает Игорь Бедеров. По его мнению, «Окулус» — это простая нейросеть, позволяющая идентифицировать на фото и видеозаписях запрещенные тексты или символы. Подобная система распознавания входит даже в программный комплекс «Охотник», который сейчас ставится на вооружение органов внутренних дел, отмечает эксперт.
В мире есть тысячи систем, основанных на искусственном интеллекте, которые по постам в интернете пытаются угадать, например, динамику курсов акций или эффект от рекламной кампании, отмечает независимый IT-специалист Филипп Кулин: «Однако точность таких систем не вызывает доверия». Работа ИИ основана на огромных массивах статистических данных, которые требуется сортировать вручную и создать очень точно работающую модель, продолжает Кулин. «Я не видел заслуживающего уважения аналитического исследования о влиянии интернета на процессы, происходящие в обществе. Как и исследования отражения в интернете напряженности в обществе. Совершенно непонятно, какие маркеры считать признаками напряженности, а от этого во многом зависит, как их искать», — добавляет эксперт.
Разбор по праву
С правовой точки зрения работа подобных систем вызывает вопросы у юристов. Главный из них в том, что будет происходить с такой информацией после ее выявления, рассуждает преподаватель образовательной платформы Moscow Digital School, директор по правовым вопросам Фонда развития интернет-иницитив Александра Орехович. «Будет ли она удаляться или корректироваться? Какие меры планируется предпринимать по снижению острой общественной реакции и какие для этого будут выбраны способы?» — размышляет она.
Закон о персональных данных позволяет принимать автоматизированные решения, порождающие юридические последствия для граждан только с их письменного согласия, подчеркивает руководитель практики интеллектуальной собственности юридической фирмы DRC Владимир Ожерельев. Поэтому, продолжает он, «Вепрь» и «Окулус» могут лишь находить возможное нарушение, тогда как окончательное решение о противоправности может быть принято только в судебном или административном порядке. При этом Ожерельев не исключает, что данные систем можно будет использовать в противоправных целях или они будут скомпрометированы в результате утечки. «Впрочем, если системы будут анализировать только публичную и не привязанную к конкретному человеку информацию, этот риск можно не рассматривать», — заключает он.
В любом случае попытки манипуляции мнениями или недопущения распространения информации могут нарушать права граждан на свободу получения информации, говорит Орехович: «Описание системы не содержит ответов на вопросы относительно целей выявления «очагов напряженности», что в свою очередь не позволяет окончательно оценить риски применения системы».