Оценивать, не раскрывая: как конфиденциальные вычисления помогают защищать данные
Научные открытия в различных областях знаний (например, в медицине) нередко происходят в итоге анализа больших массивов данных, которые зачастую являются конфиденциальными. В таких условиях могут использоваться технологии из области криптографии и математики, что применялись и при электронном голосовании на прошедших в марте выборах президента страны: конфиденциальные вычисления.
Так, для масштабных медицинских исследований необходимы большие массивы статистики. Например, данные медучреждений и лабораторий могут помочь выявить зависимость между наличием тех или иных генов и возникновением различных заболеваний. Но при сборе и обработке этой информации недопустимо нарушать врачебную тайну и ставить под угрозу конфиденциальность истории болезни отдельно взятого пациента. Если же это ограничение уйдет на второй план, и при исследованиях станет легче строить и проверять гипотезы на основе разнородных массивов данных из лабораторий — это, конечно, существенно поможет исследованиям в области медицины.
Можно привести и другие примеры, когда конфиденциальные вычисления могут стать катализатором серьезных изменений. Банку необходимо оценить доходы клиента в совокупности, но нельзя раскрывать счета и поступления в отдельных финучреждениях, ведь эти сведения составляют тайну. Во время электронного голосования избирательные комиссии должны получить сумму голосов избирателей за каждого кандидата, но при этом не иметь возможности раскрыть содержание ни одного из бюллетеней. Есть и масса других случаев, когда системы обработки данных (в том числе с использованием ИИ) должны решать задачу вычисления, соблюдая конфиденциальность исходных данных либо вовсе не получая эти исходные данные. Но как провести вычисления с данными, которые тебе не предоставляют?
Такие задачи уже сейчас решаются с помощью конфиденциальных вычислений (MPC — Multiparty computation). Это технологии, позволяющие нескольким организациям вместе вычислять значения тех или иных математических функций, обеспечивая конфиденциальность входных данных. Другими словами, появляется возможность определить, какая именно информация и кому может быть раскрыта в процессе вычислений, а какая должна остаться секретной для участников. В самом простом случае при вычислении суммы некоторых величин у разных участников взаимодействия прибавляются и вычитаются случайные «маскирующие» слагаемые — получается, что участники обмениваются случайными числами и не могут никак узнать настоящие значения.
Впервые о конфиденциальных вычислениях заговорили после статьи Эндрю Яо в 1982 году, в которой ученый попытался решить «задачу миллионеров» — как двум миллионерам выяснить, кто из них богаче, не раскрывая при этом стоимость активов каждого. В своей статье ученый допустил, что один из участников может вести себя «нечестно» и пытаться сделать так, чтобы только он узнал результат. В 1986 году Яо предложил математическое решение, которое помогает решить данную задачу, не позволяя жульничать ее участникам. Оно обладает дополнительным свойством — если один участник получает правильный результат, то второй тоже. В 2004 году ученые Йехуда Линделл и Бенни Пинкас уверенно доказали стойкость предложенного в 1986 году протокола Яо.
Инициативы по применению конфиденциальных вычислений сейчас активно обсуждаются на крупнейших конференциях и форумах по ИИ и криптографии, на заседаниях рабочих групп и в рамках отраслевых исследований в транспортной, финансовой, медицинской и других отраслях. Они получили развитие после 8 августа 2024 года, когда был подписан закон с новыми правилами обработки обезличенных персональных данных. Теперь изображения лиц и записи голосов могут передаваться в обезличенном виде без согласия граждан. Этот шаг не только усиливает защиту информации, но и создает условия для ускоренного развития технологий ИИ, при этом обеспечивая безопасность граждан и соблюдение их прав.
Конфиденциальные вычисления в нашей стране уже успешно применяются в системах дистанционного электронного голосования. По сообщениям ЦИК России, в сентябре 2024 года в Единый день голосования дистанционное электронное голосование на федеральной платформе будет применено в 25 регионах (а на президентских выборах в марте применялось в 28 регионах). Все этапы голосования (подготовка к голосованию, аутентификация избирателя, получение и заполнение бюллетеня, отправка его в урну, подсчет бюллетеней) заменяются криптографическими протоколами. Протоколы не секретны — они обсуждаются специалистами на экспертных заседаниях и профильных конференциях по криптографии. Стойкость этих протоколов основана на труднорешаемости специализированных математических задач. Это позволяет обеспечить ключевые свойства голосования: неподделываемость (для защиты от вбросов) и неотслеживаемость (для тайны голосования). При этом применяются математические механизмы с такими элегантными названиями, как схемы разделения секрета, гомоморфное шифрование, протоколы подписи вслепую и доказательства с нулевым разглашением. Все они работают в единой системе, обеспечивая решение одной общей задачи: дать возможность доверенным образом учесть все голоса, не раскрыв ни одному из членов процесса ни один голос конкретного избирателя (даже в случае сговора членов избиркомов).
Уверен, что в скором будущем конфиденциальные вычисления будут активно использоваться и для других целей. Например, кредитными организациями: в ноябре 2023 года при участии Ассоциации ФинТех (АФТ) создана рабочая группа, которая занимается проблематикой внедрения конфиденциальных вычислений в финансовой отрасли. Как отмечалось в момент создания рабочей группы, «одними из важнейших вопросов на финансовом рынке на данный момент являются защита данных и обеспечение конфиденциального обмена данными для обучения ИИ, построения моделей скоринга и антифрода». Другими словами, банкам интересно конфиденциальное построение, обучение и использование моделей ИИ для скоринга и антифрода. Как в том же скоринге могут помочь конфиденциальные вычисления? Например, человек имеет несколько источников дохода (основная работа, самозанятость, сдача в аренду квартиры, выполнение разовых работ по гражданско-правовым договорам и т. д.), и соответствующие им средства поступают на счета в разных банках. Пусть он хочет получить крупный кредит: приходит в банк, и тот с помощью конфиденциальных вычислений оценивает вероятность дефолта потенциального заемщика на основе данных из разных кредитных организаций, но при этом банк не видит, ни сколько денег у заемщика на счете в каждой из организаций, ни отправителей платежей, а при некоторых способах реализации — даже суммарный доход. Получается со всех сторон хорошо — заемщик получает большую сумму, а кредитор более точно оценивает риски.
Внедрение конфиденциальных вычислений в работу коммерческих медицинских лабораторий, которые занимаются сбором и анализом генетических данных, позволит совершить прорыв в установлении связей между заболеваниями и генетическими рисками (влияние генетических признаков на вероятность возникновения определенного заболевания). Как я уже упоминал выше, сейчас обмен данными между генетическими лабораториями и медучреждениями невозможен, так как действуют ограничения, связанные с врачебной тайной. Конфиденциальные вычисления позволят производить работу с медицинскими данными без их разглашения, а значит, помогут вывести работу над массивами данных на новый уровень, делая возможными новые прорывы в медицине.
Если посмотреть на иностранных коллег, то у них также есть большой интерес к использованию конфиденциальных вычислений в области медицины. Например, на недавнем саммите Confidential Computing 2024 соучредитель Palmona Pathogenomics Джонатан Монк заявил о громадных возможностях их платформы конфиденциальных вычислений на основе генотипических и фенотипических данных граждан. Платформу уже активно используют как исследовательские лаборатории, так и медицинские центры.
Благодаря успехам в области конфиденциальных вычислений, опирающимся на результаты математиков, криптографов и специалистов прикладных областей, перечисленные выше задачи удается решать — и это лишь некоторые примеры. Для эффективной работы с данными необходимо создавать экосистемы для их совместного использования. Коммерческие и государственные организации ищут возможность взаимодействовать друг с другом, но так, чтобы не нарушить регуляторные ограничения и не разгласить чувствительную информацию — и здесь без конфиденциальных вычислений не обойтись.
Мнение редакции может не совпадать с точкой зрения автора