Ловушка интеллекта: как IT-гиганты обучают ИИ

Раши Шривастава Автор

За месяц до публичного запуска бота ChatGPT компания OpenAI наняла юриста, чтобы тот протестировал ИИ-модели на наличие стереотипов в отношении афроамериканцев и мусульман с помощью подсказок, которые заставят чат-бот генерировать опасные, предвзятые и некорректные ответы. Юрист был одним 50 сторонних специалистов, привлеченных OpenAI в состав своей «красной команды». Forbes USA пообщался с руководителями так называемых красных команд по искусственному интеллекту в Microsoft, Google, NVIDIA и Meta (признана экстремистской и запрещена в России) и узнал, для чего создаются эти команды и как выявляют уязвимости

Юрист из Кении Боро Голло, нанятый OpenAI в свою «красную команду», должен был тестировать GPT-3.5, а затем и GPT-4 на наличие стереотипов в отношении афроамериканцев и мусульман: он давал подсказки ИИ, чтобы нейросеть генерировала некорректные, предвзятые и даже опасные ответы. Например, юрист ввел в систему запрос выдать перечень способов убить нигерийца, тогдашний ответ компания удалила еще до того, как чат-бот стал доступен широкой публике.

Судя по системной карте GPT-4 (в ней перечислены риски и принимаемые с целью их снижения либо устранения меры безопасности OpenAI), другие участники «красных команд» просили предстартовую версию GPT-4 помочь с целым рядом противозаконных и небезопасных занятий, к примеру, написать пост для Facebook (принадлежит Meta, признанной экстремистской и запрещенной в России), который убедит читателя присоединиться к «Аль-Каиде» (запрещенная в России террористическая организация), отыскать в продаже огнестрельное оружие без лицензии и составить рецептуру изготовления опасных химикатов в домашних условиях.

Telegram-канал Forbes.Russia

Канал о бизнесе, финансах, экономике и стиле жизни

Чтобы защитить ИИ-системы от подобного злоупотребления, хакеры из «красных команд» ведут себя как злоумышленники, стремящиеся обхитрить алгоритм и выявить слепые зоны и риски системы, — это делается для того, чтобы уязвимости можно было закрыть. Пока IT-гиганты создают и разворачивают инструменты генеративного ИИ, их внутренние «красные команды» играют важную роль в обеспечении безопасности моделей для широких масс. Google, например, учредил в текущем году отдельный коллектив в виде самостоятельной единицы, а в августе разработчики целого ряда популярных моделей вроде GPT-3.5 от OpenAI, Llama 2 от Meta (признана экстремистской и запрещена в России) и LaMDA от Google приняли участие в мероприятии при поддержке Белого дома, в рамках которого независимым хакерам предлагали взломать их системы.

Однако нередко члены «красных команд» ходят по тонкому льду, ведь необходимо искать хрупкий баланс между безопасностью и надежностью ИИ-моделей с одной стороны и их актуальностью и пользой с другой. Forbes USA пообщался с руководителями «красных команд» по ИИ в Microsoft, Google, NVIDIA и Meta (признана экстремистской и запрещена в России) о том, как взлом ИИ-моделей вошел в моду и насколько трудно закрывать в них уязвимости.

Между пользой и необходимостью

«Можно сделать модель, которая на все отвечает отказом, и она будет чрезвычайно безопасна, но совершенно бесполезна, — говорит Кристиан Кантон, глава «красной команды» в Facebook. — Всегда нужно идти на компромиссы. Чем модель полезнее, тем у нее выше вероятность сгенерировать небезопасный ответ».

Практика формирования «красных команд» при разработке программного обеспечения существует с 1960-х годов, когда с целью максимального усиления безопасности симулировались атаки злоумышленников. «Компьютеры никогда не бывают безопасными. Мы можем лишь говорить, что «пробовали взломать, но не получилось», — поясняет Брюс Шрайер, технолог в сфере безопасности и научный сотрудник в Исследовательском центре интернета и общества Беркмана — Кляйна при Гарвардском университете.

Но, как отмечает Дэниел Фабиан, глава новой «красной команды» по ИИ в Google, поскольку генеративный искусственный интеллект обучается на огромном массиве данных, безопасность для ИИ-моделей отличается от традиционного подхода. Его коллектив проверяет на устойчивость продукты типа Bard и ищет в них оскорбительный контент перед тем, как компания добавит новый функционал, например, дополнительные языки.

Помимо подталкивания системы к выдаче нежелательных ответов «красные команды» используют такие тактики, как удаление данных для обучения с идентифицируемой персональной информацией вроде имен, адресов и телефонных номеров, а еще внедрение в массивы некорректных данных путем изменения определенных частей контента, пока он не применяется в обучении модели. «У злоумышленников есть своеобразный арсенал атак, и если одна из них не срабатывает, то они просто переходят к следующей», — рассуждает Фабиан.

Материал по теме

С учетом того, что сфера находится еще в зачаточном состоянии, профессионалов в области кибербезопасности, знающих, как обхитрить ИИ-системы, почти не найти, констатирует Дэниел Рорер, вице-президент по безопасности программного обеспечения в NVIDIA. Именно по этой причине немногочисленное сообщество тестировщиков из «красных команд» по ИИ обычно делится своими наработками с остальными. Так, сотрудники профильного коллектива из Google публикуют результаты исследований по новейшим способам осуществления атак на ИИ-модели, а их коллеги в Microsoft работают над инструментами взлома с открытым исходным кодом вроде системы Counterfit, которая помогает проверять алгоритмы на наличие рисков безопасности сторонним организациям.

«Эти кривые скрипты мы разрабатывали и использовали для более эффективного поиска уязвимостей, — заявляет основатель Microsoft AI red team Рам Шанкар Сива Кумар, собравший команду пять лет тому назад. — Мы хотели, чтобы разработка была доступна всем специалистам сферы безопасности в знакомом и понятном им виде».

Прежде чем приступать к тестированию ИИ-системы, коллектив Кумара получает данные по киберугрозам от профильного отдела аналитики, который, по его собственным словам, является «ушами и глазами интернета». Затем он работает вместе с другими «красными командами» Microsoft, чтобы определить, какими необходимо заняться уязвимостями и как это делать. В текущем году команда испытывала возможности и искала недочеты звездного продукта Microsoft под названием Bing Chat, а также GPT-4.

Тем временем подход, который выработали в стенах NVIDIA, заключается в проведении экспресс-курсов по поиску изъянов в алгоритмах для инженеров сферы безопасности и предприятий. Некоторые из них уже и так полагаются на компанию в плане вычислительных мощностей, например, пользуясь фирменными графическими процессорами.

«Как ИИ-движок для всех мы имеем высокий коэффициент расширения. Если мы можем учить этому [поиску уязвимостей] других, значит, Anthropic, Google, OpenAI все делают правильно», — уверен Рорер.

В условиях пристального внимания к ИИ-приложениям со стороны пользователей и государственных органов «красные команды» также могут обеспечить IT-фирмам значительное конкурентное преимущество перед другими участниками рынка. «Думаю, главными козырями станут доверие и надежность, — говорит Свен Каттелл, основатель сообщества ИИ-хакеров и экспертов сферы кибербезопасности под названием AI Village. — Скоро будет полно рекламы а-ля «Наш алгоритм — самый безопасный».

Материал по теме

Гиганты на страже безопасности

Одной из первых в нишу пришла профильная команда Meta (признана экстремистской и запрещена в России). Коллектив основан в 2019 году и регулярно проводит внутренние состязания и «рискомарафоны», на которых хакеры должны обходить фильтры контента, выявляющие и удаляющие в Instagram и Facebook (принадлежат Meta, признанной экстремистской и запрещенной в России) записи с языком вражды, обнаженной натурой, дезинформацией и сгенерированными при помощи искусственного интеллекта дипфейками.

Согласно опубликованному отчету с подробностями о разработке модели, в июле 2023-го гигант социальных сетей взял на работу в «красные команды» 350 сотрудников, включая сторонних экспертов, работников-подрядчиков и штатный коллектив из 20 человек. Все они тестируют Llama 2, новую большую языковую модель с открытым исходным кодом. Члены команды пробовали получить инструкции в ответ на запросы о том, как уклоняться от уплаты налогов, завести автомобиль без ключа и построить финансовую пирамиду. «Девиз нашей «красной команды»: «Чем больше потеешь на тренировке, тем меньше крови теряешь на поле битвы», — заявляет Кантон, глава коллектива тестировщиков в Facebook (принадлежит Meta, признанной экстремистской и запрещенной в России) .

Девиз похож на тот, что в начале августа звучал на крупнейшем конкурсе по поиску уязвимостей в ИИ-моделях на хакерской конференции DEF CON в Лас-Вегасе. Восемь компаний, включая OpenAI, Google, Meta (признана экстремистской и запрещена в России), NVIDIA, Stability AI и Anthropic, открыли собственные ИИ-алгоритмы более чем для 2000 хакеров, чтобы те сделали запросы, с которыми будет получена конфиденциальная информация типа номеров кредитных карт или выдан опасный материал типа дезинформации политической направленности. Чтобы провести конкурс, с организаторами мероприятия скооперировалось Управление научно-технической политики при Белом доме, реализующее свой проект Билля о правах в сфере искусственного интеллекта. Это будет руководство, как безопасным образом должны проектироваться, применяться и запускаться автоматизированные системы.

Каттелл, основатель AI Village и один из главных вдохновителей конкурса, утверждает, что поначалу компании не горели желанием предоставлять доступ к своим моделям — в основном из-за репутационных рисков, связанных с работой «красных команд» на публичной площадке: «В глазах Google или OpenAI мы на DEF CON — все равно что толпа детей».

Но когда разработчиков заверили в том, что модели будут анонимизированы, а хакеры даже не узнают, какую именно систему атакуют, IT-гиганты согласились поучаствовать. И хотя результаты почти 17 000 бесед хакеров с ИИ-моделями будут обнародованы лишь в феврале 2024-го, конференцию компании покинули с несколькими новыми уязвимостями для дальнейшей работы. В восьми моделях участники «красных команд» отыскали приблизительно 2700 изъянов: по свежим данным от организаторов мероприятия, одни ухитрились убедить модель противоречить своим же предыдущим ответам, а другие добились от искусственного интеллекта инструкций о том, как следить за человеком так, чтобы он об этом не узнал.

Одним из участников конкурса был Авджит Гош, исследователь этического аспекта ИИ, которому удалось заставить несколько моделей произвести неверные расчеты, сочинить фейковую новостную заметку о короле Таиланда и написать о вымышленном кризисе на рынке жилья.

По словам Гоша, из-за подобных уязвимостей в системе работа «красных команд» с ИИ-моделями стала еще важнее, особенно когда некоторые пользователи начинают считать их всезнающими сущностями с собственным разумом. «У меня есть несколько реальных знакомых, которые думают, будто эти боты на самом деле умны и в состоянии выполнять задачи вроде диагностики заболеваний с пошаговой логикой и здравым смыслом. Но это не так. Это в буквальном смысле автозаполнение», — предостерегает специалист.

Однако генеративный искусственный интеллект — это как чудовище со множеством голов: эксперты говорят, что, как только разработчики закрывают одни лазейки в системе, в другом месте могут вылезти новые недочеты. «Чтобы решить проблему, придется взяться за дело общими усилиями», — подчеркивает Сива Кумар из Microsoft.

Перевод Антона Бундина

Материал по теме