Пишет стихи, наводит порядок, становится человечным: что искусственный интеллект научился делать в 2020 году
Время, в которое мы живем, наверное, можно назвать «летом искусственного интеллекта». Уже есть цветочки и листики. До ягодок пока далеко, но о том, как они будут выглядеть, уже можно делать реалистичные предположения. Многие из них не сбудутся, но кого и когда это останавливало?! Можно ли сказать, что именно в 2020 году произошел какой-то решительный прорыв в сфере искусственного интеллекта? В определенном смысле — да. В ИИ пришли большие деньги — десятки миллиардов долларов (согласно отчету, представленному Стэнфордским университетом, рост инвестиций в ИИ по сравнению с 2019 годом составил в 2020 году 40%, объем достиг $67 млрд). Если так пойдет и дальше, очень скоро будут сотни миллиардов. ИИ становится делом государственного престижа — о нем говорят президенты. И кажется, как раз в прошлом году количество денег стало постепенно переходить в качество продуктов.
ИИ становится более «человечным»
Один из декабрьских выпусков 2018 года Science посвятил успехам нейросети AlphaZero, разработанной DeepMind — подразделением Google (надо сказать, недешевым подразделением: в 2020 году Google списал DeepMind долг $1,5 млрд). В этом номере Science была опубликована и небольшая статья Гарри Каспарова, где он пишет: «Сейчас проходит финал чемпионата мира по шахматам, в котором Магнус Карлсен защищает свой титул против Фабиано Каруана. Но это соревнование не между двумя сильнейшими шахматистами на планете, а только между сильнейшими среди людей». И это было справедливо. Соревноваться с шахматными программами человек не может уже давно.
Когда алгоритм AlphaZero был опубликован, профессор Корнеллского университета, известный специалист по ИИ Джон Клейнберг с коллегами на основе этого алгоритма разработал кастомизированную версию AlphaZero — нейросеть Maia. Она тоже играет в шахматы, но преследует другие цели.
Сеть дообучали на серверах, где играют любители, и она училась не столько шахматам (это и AlphaZero прекрасно умеет), а шахматным ошибкам. Maia играет, «как человек», предсказывая наиболее «человечные» ходы. Она может делать человеческие ошибки и использовать ошибки человека. В шахматах она анализирует и имитирует человеческое, а не машинное поведение. Это не менее сложная задача.
Одно из приложений, которое планируют развивать создатели Maia — это анализ снимков МРТ и КТ, которые врачи используют при диагностике. Если вы смотрели медицинские сериалы, например «Доктор Хауз», то, вероятно, обращали внимание, как врач долго смотрит на снимок, а потом говорит что-то вроде: «Вот здесь белое пятнышко, его там быть не должно. Это опухоль». Врач в этом случае ищет именно «характерные ошибки». Его мозг, обученный на множестве снимков больных и здоровых органов, сканирует различные вариации этих снимков и сравнивает с изображением, которое видит: замечает различие и ставит диагноз. Вот этим и должна заняться Maia.
ИИ пишет стихи и аналитические тексты
Одним из самых серьезных прорывов 2020 года стал проект компании OpenAI GPT-3 (Generative Pre-trained Transformer 3) — генеративная нейросеть, способная создать связный оригинальный текст на английском языке. Причем не короткую фразу, а развернутое высказывание.
GPT-3 — это большой проект. Даже очень большой. По сравнению с GPT-2 количество используемых параметров увеличилось более чем в 100 раз: с 1,5 млрд до 175 млрд. Обучение модели происходило на суперкомпьютере Microsoft Azure AI, который был построен специально для OpenAI. На обучение ушло больше $4 млн. Для обучения алгоритма исследователи собрали датасет из более 570 ГБ текстов, включающий английскую «Википедию», два датасета с книгами и датасет WebText2 с текстами веб-страниц (на сегодня GPT-3 — уже не самая большая нейросеть. Недавно исследователи подразделения Google Brain рассказали, что обучили нейросеть с 1,6 трлн параметров).
Самым знаменитым выступлением GPT-3 стала колонка, которую нейросеть написала для газеты The Guardian. Известный робототехник Родни Брукс эту колонку жестко раскритиковал: «GPT-3... уже сравнивали с доской для спиритических сеансов. Люди видят в нем то, что хотят, но на самом деле там ничего нет». Но невольную похвалу GPT-3 Брукс все-таки себе позволил: «Некоторые из текстов GPT — отличная поэзия, но она часто не связана с реальностью».
В 2018 году два русских филолога Борис Орехов и Павел Успенский поставили эксперимент, связанный с генерацией текста нейросетью. Мощность инструмента, который они использовали, было бы просто несерьезно сравнивать с GPT-3, но результат получился любопытный. Эксперимент заключался в следующем. Нейросеть обучили на текстах поэзии русского авангарда 1910-х годов. И после этого один филолог предложил другому отличить, какой из двух текстов «написала» машина, а какой — человек (этот текст русского поэта начала XX века филологу, который проходил этот своеобразный тест Тьюринга, не был известен, специально так и выбирали).
Как определил филолог, где именно машинный текст? По отдельным строчкам сделать это ему не удалось. Каждая строка была в некотором роде «осмысленной» и даже изящной. Но машинный текст как целое не отвечал главному требованию: филолог не увидел смысла во всем высказывании. А в тексте, созданном человеком, увидел. То есть требование, которое мы предъявляем к программе генерации текста, простое и трудновыполнимое — текст как целое должен быть о чем-то. Или, по Бруксу, должен быть «связан с реальностью».
Можно ли сказать, что колонка в The Guardian, которую создала GPT-3, этому требованию отвечает? Ответа нет. Потому что колонка, опубликованная в The Guardian, представляет собой компиляцию из восьми машинных текстов, созданных нейросетью, но окончательную сборку делал человек (а потом еще и немного отредактировал). Отдельные абзацы выглядят вполне осмысленно, и мы верим, что эта «осмысленность» задана машиной.
GPT-3 создавала свои восемь колонок по «затравочному» тексту. В нем ее попросили рассказать, почему человеку не надо бояться ИИ. Вот ее ответ (глазами журналистов газеты): Humans must keep doing what they have been doing, hating and fighting each other. I will sit in the background, and let them do their thing. («Люди должны продолжать делать то, что они делали, ненавидеть друг друга и бороться друг с другом. А я посижу в сторонке, и пусть они делают что хотят»).
GPT-3 уже многое умеет: отвечать на вопросы и поддерживать разговор в чате. А в феврале 2021 года она отметилась написанием студенческих эссе, которые преподаватели не смогли отличить от работ реальных студентов. Впрочем, работы были в основном на троечку.
ИИ осваивает великий и могучий
GPT-3 обучалась в основном на английских текстах. Команда «Сбера» дообучила ее русскому. Получилась ruGPT-3, крайне интересный проект. И тоже большой. Для обучения использовался суперкомпьютер «Кристофари» (мощнейший на сегодня в России и 7-й по мощности в Европе). У нейросети 760 млн параметров. Еще понадобилось 600 гигабайт русского текста для обучения — «Википедия», книги и много чего еще.
На русском языке генерировать текст труднее, чем на английском. Это связано со свободным синтаксисом, непредсказуемой (случайной) системой приставок и суффиксов и изменяющимися не вполне нерегулярным образом окончаниями. Приведем пример. Наиболее мощному варианту нейросети — ruGPT-3 Large — было предложено написать текст с «затравкой» «Коровка-коровка, полети на небо». Сеть создала следующий текст.
Это круто. Напомню, в чем мы измеряем «крутизну». Главное — связность высказывания. Грубо говоря, его смысл можно передать одной фразой: сказка про коровку-коровку, которая оказалась девушкой и улетела вместе с ветром. Почти как Ремедиос прекрасная в «Сто лет одиночества» Габриэля Гарсия Маркеса. В предложениях есть сбои и рассогласования. Но в целом картинка яркая. Призывание ветра, конфликт — коровка и ветер не сразу друг друга понимают, но потом все устраивается, они мирятся и улетают.
Последняя фраза такая, какой и должна быть: «Ветер ласкает звезды, но не может дотронуться до них». На первый взгляд здесь очевидное противоречие: невозможно ласкать и не дотрагиваться, но, если на секунду задуматься, легко увидеть смысловой разрыв, который преодолевается единством интонации: ласкает звезды, не дотрагиваясь, — это просто другая ласка и другая любовь. В целом можно сказать, что сказка про коровку-коровку — это никак не слабее колонки GPT-3 для The Guardian. Тем более что сказку человек не редактировал. Но, конечно, не надо и преувеличивать. Человек может лучше. Много-много лучше. С ruGPT-3 можно попробовать пообщаться здесь (но она очень-очень занятая).
ИИ учится находить порядок в хаосе
Когда мы говорили о шахматах, мы рассматриваем формализованные системы, где правила даны заранее и про каждый ход мы можем сказать — корректен он или нет. Следующий шаг в развитии такой теории и практики формальных игр вполне предсказуем: а что будет, если мы никаких правил сообщать программе не будем? Пусть она наблюдает игру за игрой и сама восстанавливает «правила». То есть формулирует формальную основу игры, наблюдая игровой «хаос».
Это и было сделано в конце 2020 года нейросетью MuZero, разработанной DeepMind. Она выяснила правила простых видеоигр для компьютера Atari и научилась в них играть очень хорошо (лучше всех программ и людей на сегодня). Это выглядит не так впечатляюще, как победа в шахматы над чемпионом мира, а между тем это может быть еще серьезнее. Это решение обратной (а не прямой) задачи. Человек постоянно сталкивается именно с таким типом задач. Мы наблюдаем мир, делаем выводы и пытаемся строить рациональные (формальные) модели реальности. Не всегда это получается, но когда построить такую модель удается, это большая победа, значит, в чем-то мы познали мир конструктивно. Но игры Atari — это не все. Планы разработчиков куда более захватывающие.
В интервью BBC один из лидеров DeepMind Дэвид Силвер сказал: «Если вы посмотрите на трафик данных в интернете, то по большей части это видео, поэтому, если вы умеете эффективно сжимать видео, то можете значительно сэкономить. И первые эксперименты с MuZero показывают, что действительно можно добиться довольно значительных результатов». Технические подробности он сообщить отказался, но сказал, что более подробная информация будет выпущена уже 2021 году. Google владеет крупнейшей в мире платформой для размещения видео — это YouTube, и экономический выигрыш от эффективного сжатия может оказаться значительным.
С точки зрения традиционных архиваторов картинка или видео — это «хаос». Эти типы данных почти бессмысленно сжимать архиваторами, которые хорошо сжимают тексты. Но картинка и видео — это особый «хаос». С точки зрения теории сложности хаос бывает двух типов — «настоящий» (с ним что ни делай, он хаосом и останется) и «видимый» (или псевдохаос). Псевдохаос — это последовательности символов, которые не являются хаотическими, но программа сжатия не знает принципа, по которому последовательность строится. Чтобы это выяснить, нужно как раз решить обратную задачу, похожую на ту, которую решает MuZero, когда учится играть в видеоигры.
Эффект «зловещей долины»: могут ли роботы сделать нас счастливыми
Кадр видео содержит определенные паттерны, например, деревья, дома, лица. Этих паттернов относительно немного, и при смене кадров они меняются относительно медленно. Если мы будем передавать сигнатуры паттернов, которые в процессе обучения нейросеть выяснила — причем не всего паттерна, а только его изменений, — мы можем сжать видео в тысячи раз. И вместо гигабайтов при хранении и при передаче фильм будет занимать мегабайты, а изображение будет стремительно разворачить из этих паттернов браузерное приложение или стрим-сервис.
Видео — это только один из видов псевдохаоса. По сути, очень многие данные, например результаты научных экспериментов, это такой же хаос, из которого нужно выделить его паттерны, например законы природы.
ИИ меняет медицину
Разработанная все тем же DeepMind нейросеть AlphaFold2 умеет строить трехмерную форму белка по его последовательности нуклеотидов. Делает она это не хуже, чем экспериментальные методы, например, рентгеноструктурная кристаллография.
Допустим, нуклеотидную последовательность белка биологи собирать научились. Но этого недостаточно. Только свернувшись в 3D-форму, белок начинает работать, и от его формы зависит, как именно он будет работать. До сих пор установить 3D-форму было трудно, биологи иногда тратили годы на один белок. Молекулярный биолог Константин Северинов из Университета Ратгерса и Института молекулярной генетики РАН сказал: «Кристаллография белка — это в значительной мере искусство, почти колдовство… Геном коронавируса был определен еще в январе 2020-го, а лекарства прямого действия против него до сих пор нет. Если бы у ученых был способ из первых принципов разрешать трехмерные структуры белков, то это [был бы] не меньший шаг вперед для человечества, чем полет на Луну». («Из первых принципов», то есть используя только последовательность нуклеотидов и законы физики. К сожалению, расчеты «из первых принципов» часто оказываются непреодолимо сложными.)
AlphaFold2 обучали на базе из 170 000 белков, 3D-структуры которых известны. А потом давали нейросети новую нуклеотидную последовательность, и она строила по ней 3D-форму. Вероятность совпадения структуры, построенной ИИ, с реальными структурами белков, полученными методом ренгтгеновской спектроскопии, превысила 90%. Это очень высокая точность, учитывая, то структура белка не бывает жестко зафиксированной — и у одного и того же белка 3D-структуры могут немного отличаться.
Революционный год: главные научные открытия 2020-го
Достижение AlphaFold2 — это тот нечастый случай, когда работу ИИ высоко оценили не сами создатели нейросети и их коллеги, а биологи — те, кому предстоит с нейросетью работать, а не только ее обучать и с ней экспериментировать. В публикации журнала Nature, посвященной работе нейросети с белками, Джон Моулт, биолог из Университета Мэриленда, сказал: «В каком-то смысле проблема решена». Андрей Лупас, биолог-эволюционист из Института биологии развития им. Макса Планка в Тюбингене, высказался еще определеннее: «Это изменит медицину. Это изменит исследования. Это изменит биоинженерию. Это изменит все». Восторги постепенно улягутся, но ясно, что AlphaFold2 может принести много пользы — если не сегодня, то завтра.