Пятница, 13-е. Как предотвратить утечку данных пользователей

Валентин Крохин Автор

Главные причины публикации чувствительных данных — человеческая беспечность и железная точность роботов

В пятницу, 13 июля, стало известно, что закрытые страницы сайтов в доменах крупных компаний были проиндексированы «Яндексом». В результате огромное количество данных, включая сканы паспортов граждан России, утекли в сеть. Как предотвратить такие случаи или хотя бы подготовиться к ним?

Начнем с того, что вся информация, которую человек оставляет на сайте, там же и хранится. Ее конфиденциальность зависит от настроек конкретного раздела на предмет того, должен ли он индексироваться поисковым роботом и, соответственно, попадать в кэш поисковиков.

Для создания базы данных об интернет-сайтах поисковый робот-сборщик переходит по ссылкам, которые ему доступны. Владелец сайта или веб-мастер всегда может позаботиться о том, чтобы роботы обходили стороной страницы, содержимое которых не должно попасть в поисковые системы. Для этого в файле robots.txt прописывается, какие страницы в силу их содержимого не должны индексироваться.

Если взглянуть на то, что именно попало в выдачу «Яндекса», мы увидим, что в большинстве случаев это страницы оплаты заказа в различных интернет-магазинах, личные кабинеты и пр. Чтобы поисковый робот проиндексировал страницу, он должен знать о существовании такого адреса. Очевидно, что ни на каких третьих ресурсах в интернете ссылок на автоматически генерируемые страницы быть не может. Как же краулер узнал о них и проиндексировал?

Человеческий фактор и педантичность роботов

Вероятнее всего мы имеем дело с историей, аналогичной той, что произошла в 2011 году. Тогда в сеть попали данные о заказах в ряде интернет-магазинов, созданных на базе популярного в Рунете инструмента WebAsyst Shop-Script и использующих «Яндекс.Метрику». Эти интернет-магазины использовали привычную логику: когда пользователь оплачивает покупку картой на сайте, для проведения транзакции и предоставления информации о ней каждый раз создается отдельная страница вида, например, https://checkout.domain.ru/уникальный_адрес. Доступ к ней мог получить кто угодно, если ему был известен URL.

В один прекрасный день эти автоматически генерируемые страницы оказались публичными. Как поисковый робот узнал о существовании каждого такого адреса? Вероятнее всего благодаря «Яндекс.Метрике», которая отслеживает посещаемость различных разделов сайта, в том числе и этих страниц. В результате утечки данных в публичном доступе оказались ФИО покупателей, их заказы, адреса, контактные данные и многое другое.

И тогда, и сейчас велись активные дискуссии о том, кто несет ответственность за подобные инциденты — создатели поисковиков, индексирующих страницы, ссылок на которые нет нигде в сети, или же владельцы ресурсов, не прописавшие необходимые ограничения в robots.txt. На данный момент можно с уверенностью лишь одно: произошедшее в пятницу — это не первый и не последний подобный случай.

По нашим наблюдениям, организации, к сожалению, вообще в среднем плохо защищают веб-сегмент. Примеры банальной халатности, приводящей к тому, что закрытая часть сайта внезапно индексируется поисковиками, встречаются регулярно. Не всегда эти компании «на слуху», и потому не все подобные инциденты получают широкое освещение. Например, относительно недавно был случай, когда российская компания, работающая в сфере информационной безопасности (sic!), забыла закрыть некоторые разделы сайта от индексации, в результате чего все резюме, когда-либо отправленные соискателями через веб-форму, появились в выдаче «Яндекса». Там были и персональные данные, и зарплатные ожидания, и другая информация, которую люди, возможно, не планировали разглашать.

В теории компании понимают необходимость защиты персональных данных пользователей в вебе, но на практике сложность состоит в том, что современные сайты имеют большую и разветвленную структуру, а решение об индексации конкретных разделов чаще всего принимают ИТ-специалисты, а не офицеры безопасности.

К тому же динамика развития крупных веб-сайтов сегодня такова, что они обновляются, в том числе структурно, по несколько раз в день. Ожидаемым следствием становится то, что некоторые недавно созданные или перемещенные страницы оказываются в индексируемой зоне и становятся публичными.

Однако это только одна сторона проблемы. Другая, на мой взгляд, кроется в самом восприятии защиты персональных данных.

Корень зла

Люди оставляют свои персональные и платежные данные повсюду и, можно сказать, бесконтрольно. Данные банковских карт разлетаются по интернет-магазинам, паспортные данные — по различным агрегаторам авиабилетов и сервисам бронирования отелей.

Пользователь, во-первых, мало задумывается о том, где он оставляет персональные данные и насколько этот сайт защищен. Обычно решающим фактором служит то, насколько подача данных через веб-форму удобнее прочих вариантов взаимодействия. Во-вторых, персональные данные тоже могут мигрировать: компании могут продавать свои базы партнерам, отдавать правопреемникам в случае структурных изменений и так далее. В итоге хранение персональных данных становится сумасшедше децентрализованным. Без преувеличения, данные каждого, кто сейчас читает эту колонку, могут храниться практически где угодно.

Конечно же, существуют законы, регулирующие правила хранения, обработки и передачи персональных и платежных данных, — 152-ФЗ и СТО БР ИББС. Тем не менее сейчас защита персональных данных во многих компаниях сводится к документописанию. Мало кто действительно готов тратить время и деньги на решение этой задачи, потому что меры наказания за утечку персональных данных, можно сказать, нет. Формально это грозит организации проверками и небольшими штрафами — до 75 000 рублей в худшем случае. Думаю, поэтому даже крупнейшие компании пока что относятся к задаче по защите персональных данных спустя рукава, в том числе к тем, которые хранятся в вебе.

Причины произошедшего не умении использовать robots.txt или знании о том, как работает поисковый робот. Они в том, что реальная, а не только «бумажная» защита персональных данных волнует организации едва ли не в последнюю очередь.

Что делать

Есть два варианта развития событий, которые могли бы как-то изменить ситуацию. Вариант первый и, наверное, не самый эффективный: ужесточение контроля и наказания за утечки информации и нарушение 152-ФЗ. Массовые проверки нарушителей Роскомнадзором и широкое освещение этого процесса, чтобы компании увидели в этом серьезную проблему и начали приводить себя в соответствие требованиям закона. На мой взгляд, такой подход не решит проблему человеческого фактора и случайных утечек, подобных тем, что мы видели недавно.

Вариант второй — это государственная инициатива по централизации хранения и управления данными в единой системе, с которой компании будут взаимодействовать, не запрашивая персональные данные у пользователя и не храня их в собственной инфраструктуре. Это процесс, безусловно, более долгий и трудоемкий, чем ужесточение наказаний за утечки, но в конечном итоге, как мне кажется, только он и способен реально повлиять на защищенность персональных данных граждан.

Старый трюк: почему российские компании не могут защитить данные