В приватном режиме: как обеспечить сохранность личных данных, используя нейросети
Задача 1: Обучение нейросетей на обезличенном массиве данных
Большинство информационных систем, которыми мы пользуемся, собирают статистику. Например, если это интернет-магазин, платформа собирает информацию, что и когда мы покупаем, сколько денег мы в среднем тратим и так далее. Потом нейронная сеть обучается на этих данных, и создается модель. Но проблема в том, что это — данные реальных пользователей, наши с вами. Зачастую такой набор информации позволяет идентифицировать конкретного человека. Поэтому одна из первых задач — обеспечить обучение нейросетей на зашифрованных данных.
Задача 2: Обеспечение анонимизации данных, поступающих в нейросеть
Представьте, что вы хотите обработать фотографию с помощью нейросети. Вы открываете приложение, загружаете свое фото и просите сервис выполнить задачу. Здесь возникает еще одна проблема: посылая запрос в систему, мы используем свои личные данные — фотографию. Но это безобидный пример. Теперь представьте, что это сервис для получения информации о состоянии вашего здоровья. Чтобы получить диагноз, вы посылаете свои анализы, снимки — некую чувствительную медицинскую информацию, которой вы бы не хотели делиться. Но как этими данными распорядится сервис? Не произойдет ли утечки информации при работе с нейросетью? Вторая и не менее важная задача — обеспечить анонимность или обезличивание данных пользователей при построении модели нейронной сети.
Задача 3: Обучение модели на данных нескольких компаний
Модель нейронной сети строится на основе огромного количества данных. Чем больше разной информации об объекте изучения, тем точнее будет работать нейронная сеть. Если объединить данные, например, нескольких банков, мы бы смогли получить более усовершенствованную модель. Как же собрать данные из разных компаний, чтобы каждый обучил модель нейронной сети для своих задач? Очевидно, что каждая компания будет охранять данные, которые собрала, потому что это ее доход. Третья задача — получить синергетический эффект от обучения модели на данных сразу от нескольких компаний, обеспечив приватность данных одной компании по отношению к другой.
Варианты решения
Каждая из этих задач может решаться различными методами.
Для решения первых двух задач можно использовать криптографические механизмы гомоморфного шифрования, которые появились сравнительно недавно. Они позволяют обрабатывать зашифрованные данные и результат (модель нейросети) тоже получать зашифрованный. Таким образом, реальные данные пользователей будут защищены уже на этапе обучения модели. В открытом виде нигде и ни у кого, кроме как на вашем устройстве, эти данные не появятся. Однако этот подход достаточно сложно реализовать. Схемы гомоморфного шифрования только развиваются и имеют серьезные ограничения, которые снижают полезность нейронной сети.
Также можно использовать метод обезличивания персональных данных. Но и здесь есть свои тонкости. Совокупная информация о пользователях (пол, стоимость покупки, время посещения сайта и т. д.) повышает точность работы моделей нейронных сетей. Если обезличить данные и подать в систему, например, только информацию о стоимости покупки, мы не получим то преимущество, которое есть у системы нейронных сетей сейчас. Поэтому важно разработать такой метод, который позволял бы обезличить персональные данные для обучения модели, но чтобы они сохраняли свойства персональных данных реального человека.
Для решения третьей задачи можно использовать технику федеративного обучения, когда одна компания не просто передает другой обезличенные данные, а создает зашифрованную модель нейронной сети на своих данных. И далее вторая компания дообучает свою модель, используя полученную. Федеративное обучение — тоже сравнительно новая технология. Однако кажется, что ее внедрить проще, чем создать нейронную сеть, которая обучается полностью на зашифрованных данных. Но здесь тоже есть свои проблемы. Во-первых, психологическая: при передаче своих данных компании сомневаются в надежности этого метода, и этот страх нужно преодолеть. И, во-вторых, необходимы более развитые методы доказательства безопасности подобного обучения.
Уверен, что в этом году будут активно вестись научные исследования в области защиты данных, которые циркулируют в системах искусственного интеллекта. Мы обязательно увидим новые подходы и развитие старых идей. Скорее всего, некоторые крупные компании начнут внедрять методы обезличивания персональных данных в свои информационные системы, построенные на базе технологии искусственного интеллекта.
Мнение редакции может не совпадать с точкой зрения автора