И ты, бот: почему в утечке данных пользователей ChatGPT нет ничего удивительного
Бот так история
20 марта OpenAI была вынуждена временно отключить ChatGPT из-за «ошибки в работе библиотеки с открытым исходным кодом», которая позволила некоторым пользователям видеть сообщения других людей, общавшихся с чат-ботом. Инцидент стал публичным после того, как пользователи Reddit начали публиковать скриншоты из ChatGPT, на которых были видны заголовки и первые сообщения активных чатов других пользователей. По данным издания Engadget, сервис не работал около 10 часов.
Расследование инцидента показало, что скомпрометированной могла оказаться и личная информация некоторых платных подписчиков сервиса, говорится в сообщении OpenAI: «За несколько часов до того, как мы отключили ChatGPT в понедельник, некоторые пользователи могли видеть имя и фамилию других активных пользователей, их емейлы, платежные адреса, последние четыре цифры кредитных карт и сроки действия кредитных карт».
В компании заверили, что утечка коснулась только 1,2% подписчиков ChatGPT Plus, а уязвимость была устранена. «Мы считаем, что число пользователей, чьи данные действительно были раскрыты кому-то другому, крайне мало. <...> Мы уведомили затронутых пользователей о том, что их платежная информация могла быть раскрыта. Мы уверены в отсутствии рисков для данных пользователей», — заявили в OpenAI.
Гендиректор компании Сэм Олтмэн рассказал о «значительной проблеме в работе ChatGPT» в среду, 22 марта, на своей странице в Twitter (заблокирован в России). Он сообщил, что пользователи временно потеряют доступ к истории сообщений, добавив, что разработчики «чувствуют себя ужасно» из-за произошедшего.
Угроза для бизнеса
В России уже есть немало компаний, которые начали использовать ChatGPT. «Сервис помогает им создавать маркетинговые тексты, для чего в ChatGPT на сервер в Америку, где запущена нейросеть, передаются данные — персональные и коммерческие. Что с ними происходит дальше, знает только OpenAI», — рассуждает гендиректор Smart Engines Владимир Арлазаров. По его мнению, бизнесу следует учитывать, что ChatGPT и подобные ей нейросети создают новые угрозы.
Forbes опросил участников рынка, использующих ChatGPT в своей работе, что они думают об утечке и не боятся ли, что данные их клиентов могут быть скомпрометированы.
Илья Калиновский, руководитель направления R&D речевых технологий Just AI:
«Сама по себе конкретно эта утечка — не утечка данных логов работы модели и тех запросов, которые в нее отправляли, а утечка подписчиков, тех, кто непосредственно регистрировался в Open AI для работы. Если верить официальной информации, логи работы и данные, которые передавались в процессе работы в СhatGPT, не утекали.
Но есть намного более серьезный риск — передача данных, в том числе персональных и конфиденциальных, в закрытую и сложную модель, размещенную в облаке. Как будут использоваться эти данные и насколько создатели модели контролируют их использование — неизвестно. Поэтому я бы не рекомендовал строить решения, которые предполагают передачу персональных данных или чувствительной информации в модели, размещенной в облаке, и использовать такие решения.
Для разработчиков решений с точки зрения создания рабочих и надежных решений я бы смотрел на open source LLM модели, которые могут быть развернуты в контуре заказчика и на которых можно построить намного более контролируемый процесс обработки данных.
Мы в Just AI не обрабатываем персональные и конфиденциальные данные в чужих облаках, поэтому возможность утечки данных наших клиентов минимальна. Но в целом угроза утечек персональных данных — один из наиболее серьезных рисков для репутации и бизнеса компаний-вендоров сервисов».
Даниил Хор, сооснователь сервиса по подбору витаминов Vitobox:
«Мы не загружаем данные пользователей в ChatGPT, поскольку с самого начала считали это небезопасным. Алгоритм Vitobox анализирует ответы пользователей на вопросы касательно здоровья и образа жизни. Мы считаем основным приоритетом конфиденциальность этих данных, поэтому не доверяем их новым, не до конца протестированным сервисам.
Вопрос кибербезопасности стоит очень остро, один из самых главных приоритетов на данный момент. По данным Роскомнадзора, в 2022 году произошло около 150 крупных утечек личных данных. Эта колоссальная цифра лишний раз напоминает, что безопасности данных необходимо уделять особое внимание. Очень важно помнить, что угрозы кибербезопасности постоянно развиваются, поэтому важно быть в курсе последних передовых методов обеспечения безопасности и проявлять бдительность.
В Vitobox база данных клиентов сегментирована и зашифрована, доступ имеет ограниченный круг обученных сотрудников, используем многофакторную аутентификацию, регулярно обновляем софт. Также регулярно проводим аудиты безопасности для своевременного выявления уязвимостей».
Ольга Бондарева, основатель Social Selling-агентства ModumUp:
«У меня корпоративный бэкграунд. Я несколько лет работала в Microsoft, отвечала там за социальные сети и digital-проекты. Благодаря этому опыту я очень хорошо понимаю важность безопасности, потому что в корпорациях, особенно международных, с этим все очень строго: и то, какой софт вы используете, и то, как управлять паролями.
Что касается ChatGPT, мы в агентстве используем его только для тех данных, которые должны в будущем стать публичными. Например, мы создаем посты для социальных сетей и можем с помощью ChatGPT сделать пруфрид или небольшой рерайт. Также мы можем использовать ChatGPT для создания скриптов для переписок в LinkedIn, потому что переписки тоже станут публичными. Мы не делимся с ChatGPT клиентской информацией, которая находится под NDA, а также персональными данными наших клиентов.
Другой неприятный момент, возникший с ChatGPT — у пользователей утекли платежные данные. Я не знаю, утекли ли наши данные, но здесь мы тоже подстраховались заранее. Для внешних сервисов мы всегда создаем виртуальные карты с определенным лимитом. Даже если кто-то завладеет данными этой карты, то он не сможет потратить денег больше, чем определенный лимит в месяц. А это как раз сумма для оплаты этого сервиса. Если мы потеряем, скажем, $20 за месяц, это будет не очень обидно, и мы быстро сможем это заметить и закрыть виртуальную карту.
Используя внешние сервисы, особенно новые, вы никогда не застрахованы от утечек, они всегда будут. Важно это принять и учитывать этот риск. В первую очередь нужно выработать для своей команды правила работы с внешними сервисами: что можно туда загружать, а что нельзя. Я обучаю свою команду информбезопасности (ИБ), потому что большинство утечек возникает из-за человеческого фактора. Это может быть социальная инженерия, когда хакеры намеренно обманывают пользователей, а может быть простая невнимательность и непонимание, что во внешние сервисы нельзя загружать чувствительные данные. Важно донести это до команды и показать на реальных примерах, которые происходят на рынке».
Алексей Хахунов, сооснователь сервиса по извлечению цифровых данных из бумажных документов Dbrain:
«Это очень важная тема. Но мы используем алгоритмы только внутри своих процессов. Туда не попадают данные наших пользователей. Так, если мы хотим генерировать визуал для сайта, то это наша информация. Если хотим писать письма заказчикам, то это полностью наша информация. Есть история про внутреннюю документацию, которую потом используют клиенты, но это тоже наша история. Базовые рекомендации: когда мы что-то пишем про клиента и компанию, мы деперсонализируем данные, заменяем имя и фамилию, название компании и таким образом защищаемся от подобных проблем.
Если говорить о том, насколько персональные данные защищены при работе через такие модели, то это стандартная дискуссия на тему «Cloud против On-Premise», то есть какие решения могут быть в облаке, а какие — только в контуре. Чем более чувствительная у тебя информация, тем больше у тебя требований к тому, чтобы все данные не покидали твою компанию.
Но то, что делает OpenAI — это не единственный стек технологий, который можно использовать в своих процессах. Сейчас есть много решений, которые можно под какие-то задачи занести себе полностью в контур, дообучить на своих данных, и с этим не будет проблем. На ChatGPT свет клином не сошелся. Если ты хочешь безопасности — пожалуйста, бери, кастомизируй и переноси себе внутрь».
Павел Молянов, руководитель агентства контент-маркетинга «Сделаем»:
«Никаких конфиденциальных данных я в ChatGPT не загружал, поэтому мне бояться нечего. У меня сплошные попытки сгенерировать какой-нибудь текст, заголовок, контент-план, плюс эксперименты в духе «посчитай мне ROMI рекламной кампании», «напиши вот такой скрипт» или «придумай бизнес-план». Никак не повредит, если это увидит кто-то посторонний.
Однако угроза утечки данных очень большая. Компании могут подпадать под большие штрафы, лишаться ценных наработок, а важные внутренние данные — попадать к конкурентам. Клиенты могут увидеть «сырые» недоделанные продукты и испортить первое впечатление о сервисе. Чтобы как-то от этого защититься, я делаю сложные пароли, храню их в зашифрованном виде в специальном сервисе, везде подключаю двухфакторную аутентификацию и подписываю NDA со всеми подрядчиками, чтобы снизить риск утечки данных по их инициативе.
Кажется, для малого бизнеса этого сейчас достаточно. Если кто-то всерьез задумается нас взломать, у нас будет мало шансов против него, мы не огромная IT-компания с кучей белых хакеров и спецов по информационной безопасности. Но для кого-то опытного моя компания вряд ли представляет интерес. У нас могут украсть разве что базу из 15 000 электронных адресов или реквизиты контрагентов, но не думаю, что это представляет для кого-то огромную ценность».
Риски галлюцинаций
Утечка данных случилась из-за ошибки в кэшировании пользовательских данных, которая была допущена в Open Source библиотеке Redis (redis-py), объясняет эксперт группы анализа внешних цифровых угроз «Инфосистемы Джет» Дмитрий Богачев. «Поскольку ChatGPT от OpenAI — это все еще стартап, стоит относиться к нему как к общественному пространству, — полагает он. — Ведь мы заведомо не знаем, как и где потом окажутся те данные, которые мы передаем. Существует вероятность, что однажды у новой версии ChatGPT может произойти «галлюцинация», и она начнет выдавать конфиденциальные данные пользователей».
Ни одна из существующих в мире организаций не может быть на 100% уверена в защищенности ее активов, убеждена специалист по ИБ Just AI Юлия Брызгалова. «Угрозы утечки данных всегда были, есть и будут актуальны для всех компаний, включая те, которые работают в интернете, поскольку информация — один из наиболее ценных активов любой организации».
Коммерческий директор «Кода безопасности» Федор Дбар сомневается, что компании могут обрабатывать что-либо серьезное с помощью ChatGPT, однако, по его мнению, хайп на этой теме «прекрасно иллюстрирует две вещи»: вечное столкновение IT и ИБ, а также характерную болезнь всех популярных технологий. «Нередко бывает так, что люди начинают пользоваться какой-то интересной фичей или девайсом, и их использование заходит настолько далеко, что когда вспоминают об ИБ, оказывается поздно — впихнуть защитные решения в архитектуру технологии без нарушения ее работоспособности уже невозможно», — рассуждает он.
Этот инцидент, как и любой другой, несет угрозу в части использования данных пользователей злоумышленниками и интересен тем, что произошел с ИИ, рассуждает руководитель направления сетевой безопасности Softline Денис Чигин, призывая к осторожному использованию ChatGPT: «Однако в силу того, что нейросеть — предмет относительно новый, детальные меры только предстоит выработать».
Опрошенные Forbes специалисты рекомендуют соблюдать цифровую гигиену в обращении с чат-ботом. «Всегда следует обезличивать данные, которые будут переданы, не указывать чувствительную информацию, которая может причинить вред вам или вашей компании при ее утечке», — говорит Дмитрий Богачев.
Примечательно, что уже более тысячи исследователей, включая, например, Илона Маска и Стива Возняка, подписали открытое письмо с призывом к AI-лабораториям на полгода приостановить обучение более мощных нейросетей, чем GPT-4, из-за угроз безопасности. «Лаборатории искусственного интеллекта… должны использовать эту паузу для совместной разработки и внедрения набора общих протоколов безопасности для проектирования и разработки передового ИИ со строгим аудитом и контролем независимыми внешними экспертами, — следует из текста письма. — Эти протоколы должны гарантировать, что системы, придерживающиеся их, безопасны вне всяких разумных сомнений».