«Мужчины тоже любят шопинг»: как у искусственного интеллекта появляются стереотипы
Естественная человеческая пристрастность встроена и в наш алгоритмический мир: она повсеместно влияет на восприятие гендерной, расовой, этнической, социально-экономической, классовой и сексуальной идентичности. Влияние может быть самым серьезным, так как от него зависит, кого примут на работу или даже допустят до собеседования, как ранжируют специалистов, как будет осуществляться уголовное правосудие, кому дадут или не дадут кредит. Насколько глубока эта проблема, можно проиллюстрировать несколькими примерами.
В статье, озаглавленной «Мужчины тоже любят шопинг», рассказывается о том, как группа исследователей оценила две коллекции изображений, каждая из которых состояла более чем из 100 тыс. сложных фотографий с детальной маркировкой. На фотографиях был представлен предсказуемый гендерный предрассудок: шопинг и готовка были связаны с женщинами, а спорт, консультирование и стрельба — с мужчинами. Очевидное искажение на выходе: мужчина на кухне был маркирован как «женщина». Хуже того — если машину обучали распознаванию образов на основании предрассудков, она умножает и углубляет эти предрассудки. В процесс обучения был внедрен метод ослабления предрассудков, но он требует, чтобы автор кода искал случаи срабатывания предрассудков и определял, что надо исправить. И даже если это делается, то проблема все равно присуща исходному массиву данных. Другой вопиющий пример гендерных предрассудков демонстрирует исследование Университета Карнеги–Меллона: было обнаружено, что алгоритмы Google показывают рекламу высокооплачиваемой работы мужчинам чаще, чем женщинам.
Исследование с помощью искусственного интеллекта огромного корпуса текста из Всемирной паутины, включающего 840 млрд слов, показало широчайшую распространенность гендерных и расовых предрассудков, а также других примеров негативного отношения (скажем, к больным психическими расстройствами) и использования уничижительных прозвищ для пожилых людей. Использование сети как источника данных для этого исследования просто вывело на передний план наши исторические, запечатленные в культуре предрассудки и предубеждения. Когда ИИ сервиса Google Photos в 2015 г. ошибочно принял чернокожего мужчину за гориллу, это вызвало довольно серьезный резонанс в обществе.
В разоблачительном материале ProPublica, озаглавленном «Предрассудки машин», были представлены шокирующие свидетельства: широко используемый коммерческий алгоритм ошибочно предсказывал высокий уровень риска совершения новых преступлений для чернокожих, имеющих судимость. Степень риска рецидива для белых автоматически занижалась. Были выявлены ущемляющие бедных предрассудки в алгоритмах, которые использует полиция для прогнозирования, где именно произойдет то или иное преступление, а пресловутый «гей-радар», который по выражению лиц якобы способен распознавать сексуальную ориентацию, являет собой пример предвзятости по отношению к гомосексуалам.
Предвзятость проникает в мир ИИ самыми непредсказуемыми путями, но важно отслеживать эти пути. Рассмотрим для примера разработку приложения под названием NamePrism, которое должно было, по мысли авторов, выявлять и предупреждать дискриминацию. Приложение, созданное в Университете Стоуни-Брук в сотрудничестве с несколькими ведущими интернет-компаниями, представляет собой алгоритм машинного обучения, который определяет по имени этническую и национальную принадлежность человека на основании миллионов усвоенных имен. Точность определения составляет приблизительно 80%. Запуская приложение, создатели и не предполагали, что его будут использовать для пропаганды дискриминации, но произошло именно это.
Недостаточное культурно-личностное многообразие среди людей, работающих в ведущих ИТ-компаниях, а также среди высшего руководства компаний, отнюдь не помогает решать подобные проблемы. Преобладание белых мужчин во многих компаниях усложняет задачу выявления гендерных предрассудков в отношении женщин и требует особого внимания, так как здесь не помогут алгоритмы искусственного интеллекта.
Институт AINow, обратившись к проблеме предвзятости и дискриминации, рекомендует применять «строгие правила проверки систем искусственного интеллекта перед их запуском, чтобы удостовериться, что они не умножат число предубеждений и ошибок в связи с погрешностями в обучающих данных, алгоритмах или других элементах системного проектирования». Необходимо, кроме того, тщательное отслеживание любых проявлений предвзятости, и в этом смысле многие очень надеются на помощь искусственного интеллекта. Кейт Кроуфорд, директор института, резюмирует: «Когда ИИ становится новой инфраструктурой, незаметно, как вода из крана, вливающейся в нашу повседневную жизнь, мы должны осознавать, какими окажутся ее краткосрочные и долгосрочные эффекты, поскольку это залог нашей безопасности». Были предприняты значительные усилия для систематической проверки алгоритмов как средств обеспечения прозрачности и честности. И действительно — искусственный интеллект использовали для проверки на гендерную предвзятость статей «Википедии», причем это вызвало дискуссию, является ли искусственный интеллект менее предвзятым, чем люди.
Предвзятость в медицине уже давно стала объектом системных исследований, потому что пациенты, попавшие в число испытуемых при проведении клинических исследований, редко отображают все многообразие населения. Меньшинства представлены недостаточно, а иногда их и вовсе не включают в исследования. В геномных исследованиях это особенно заметно по двум причинам. Первая — люди европейского происхождения составляют большинство испытуемых в когортных исследованиях (а порой и вся выборка состоит из белых европейцев). Вторая, следующая из первой, — результаты этих исследований представляют ограниченный интерес для большинства людей в мире, так как многие врожденные генетические заболевания зачастую специфичны для людей определенного происхождения. Применение таких данных в качестве обучающей информации для искусственного интеллекта, а затем использование результатов для прогнозирования и лечебных рекомендаций для всех без исключения людей — прекрасный способ создать большие проблемы. Примером может служить диагностика рака кожи средствами искусственного интеллекта. Этот метод редко применяют для диагностики кожных поражений у людей с небелым цветом кожи.
Потенциальная способность ИИ усугубить и без того существенное (причем продолжающее увеличиваться во многих странах, включая и США) экономическое неравенство также имеет непосредственное отношение к медицине. Харари в своей книге «Homo Deus» рассуждает: «В прошлом веке целью медицины было лечение больных. В XXI веке медицина все больше перестраивается на усовершенствование здоровых». Эти опасения разделяет и Кай-Фу
Ли, один из наиболее признанных в Китае и в мире специалистов по искусственному интеллекту: он подчеркивает, что «даже в богатых и технологически развитых странах ИИ углубит пропасть между имущими и неимущими», а также указывает, как важно учитывать социальные последствия внедрения систем ИИ, и по возможности как преднамеренные, так и непреднамеренные. Пристрастность и предрассудки, характерные для ИИ, — это двойной удар по низшим социально-экономическим слоям населения: такие люди наиболее уязвимы в плане потери работы, и, кроме того, доступ к медицинским инструментам ИИ для них затруднен. Чтобы преодолеть эту проблему, нам нужна продуманная стратегия обеспечения всеобщей доступности полезных инструментов ИИ.
Замазывание правды
Мир фейковых новостей, фейковых изображений, фейковых речей и фейковых видео — это отчасти продукт результатов внедрения искусственного интеллекта. Мы видели, как создатели фейковых новостей в Facebook, нацеленных на определенную аудиторию, использовали их для нагнетания ситуации вокруг президентских выборов 2016 г. в США и как рекламные отделы различных компаний используют в интернете ИИ, чтобы соблазнять людей своей продукцией (а кто-то скажет — подсаживать на нее людей, как наркоманов на иглу). Проблема эта со временем только усугубляется. Уже давно говорится, как ретушь, а теперь и компьютерную обработку изображений можно использовать для того, чтобы заставить нас видеть то, что надо. Эти манипуляции достигли небывалых масштабов, фабрикуются великолепного качества фейки — не только перерисовываются изображения, нет, переписывается сама реальность... с использованием инструментов ИИ.
Специалисты стартапа Lyrebird научились, используя фрагменты записей голоса того или иного человека, фабриковать совершенно аутентичный звук. А ИИ-алгоритм, названный Houdini (в честь иллюзиониста Гудини), может перехватывать аудиофайлы и изменять их так, чтобы звучание казалось прежним, а другие ИИ-алгоритмы (например, GoogleVoice) улавливали в записи совершенно другие слова. Алгоритмы позволяют редактировать порнофильмы — переносить лица знаменитостей (скажем, Галь Гадот, звезды фильма «Чудо-женщина»), на тела других людей. Ученые Вашингтонского университета использовали нейросети для создания видео, в котором практически невозможно опознать фейк: они сделали видеоклип с «речью» президента Обамы (в реальности он никогда ее не произносил).
Очень часто с такими целями применяется одна из разновидностей искусственного интеллекта, известная под названием «генеративно-состязательная сеть» (ГСС; generative adversarial networks (GAN)). ГСС были изобретены Яном Гудфеллоу в 2014 г. Сам автор считал, что прогресс в области синтеза изображений не так быстр, как в области распознавания. По стопам Гудфеллоу последовали и другие — например, компания NVIDIA, создавшая более эффективные ГСС, которые оказались способны выдавать фейковые изображения знаменитостей с непревзойденным качеством. А вскоре появились и многочисленные усовершенствования ГСС (CycleGAN, DiscoGAN, StarGAN и pix2pixHD), и все они еще сильнее затрудняют саму возможность отличить реальное изображение от фейкового. Похоже, манипуляциям с контентом любого типа нет никакого предела, что окончательно размывает границы достоверности. А это отнюдь не то, что нам нужно в эпоху коррозии правды.