Не садитесь за стол с Цукербергом. Искусственный интеллект от Facebook обыграл лучших мастеров покера
Игрокам в покер, возможно, пора обналичивать фишки. Исследователи из Facebook и Университета Карнеги-Меллона создали искусственный интеллект (ИИ), который может обыграть пять лучших профессионалов в техасский безлимитный холдем с шестью игроками, самую популярную карточную игру.
Покер давно считается «великим вызовом» в сфере ИИ. Тот факт, что игра включает в себя скрытые данные (вы не видите карты оппонентов), означает, что для успеха нужен блеф и иные тактики, которые не применяются во многих других играх. Поэтому покер, в отличие от других игр, устойчив к техникам искусственного интеллекта. Исследователи довольно быстро смогли разработать искусственный интеллект, который в состоянии обыграть одного игрока в безлимитном техасском холдеме, но игры с несколькими игроками казались слишком сложными.
Робот, который обыгрывает лучших
Искусственный интеллект Facebook для игры в покер под названием Pluribus разработали исследователь искусственного интеллекта из Facebook Ноам Браун и преподаватель Университета Карнеги-Меллон Туомас Сэндхолм. Он был описан в научной статье, опубликованной в четверг в журнале Science.
Pluribus освоил техасский холдем на несколько игроков, играя против своих ранних версий. Этот метод обучения через «игру с собой» подразумевает, что он не получал никаких данных от людей и не наблюдал за игрой других систем искусственного интеллекта.
«Искусственный интеллект начинает с нуля и играет случайно, но постепенно учится по мере того, как определяет, какие действия и какое распределение вероятностей этих действий приводят к лучшим результатам, чем более ранние версии его стратегии», — пишут в своей статье Браун и Сэндхолм. Эта стратегия использовалась и раньше. Например, Google DeepMind применял ее, чтобы освоить игру в го, а OpenAI побеждал так в Dota 2.
Исследователи искусственного интеллекта десятилетиями использовали игры для проверки своих ботов. За последние годы в этой сфере удалось добиться значительного прогресса благодаря развитию вычислительных мощностей, улучшенным наборам данных и более совершенным техникам искусственного интеллекта. ИТ-гиганты активно инвестируют в эту область, надеясь, что достижения в ней помогут добиться прорыва в других сферах, таких как здравоохранение, наука и энергетика.
«Эти инновации могут найти применение далеко за пределами покера, потому что взаимодействия двух игроков в играх с нулевой суммой (когда один игрок выигрывает, а другой проигрывает) распространены в играх, но редко встречаются в жизни, — пишут исследователи в блоге. — Реалистичные сценарии — такие как участие в онлайн-аукционе или навигация на дороге — обычно включают множество субъектов».
Pluribus обыграл ведущих профессионалов как в формате с пятью ИИ и одним человеком, так и в формате с одним ИИ и пятью профессиональными игроками. В числе профессионалов были Крис Фергюсон, чемпион World Series of Poker, и Даррен Элиас, американский профи и рекордсмен по числу наград в World Poker Tour.
Денежных ставок не было, но исследователи утверждают, что, если бы каждая фишка стоила доллар, Pluribus выигрывал бы в среднем около $5 за раздачу и зарабатывал бы около $1000 в час, играя против пяти людей.
Pluribus — это улучшенная версия другого ИИ-бота, названного Libratus, который в 2017 году обыграл профессионалов в техасский холдем с двумя игроками.
В отличие от Libratus Pluribus содержит новый алгоритм поиска онлайн, который может находить варианты на несколько шагов вперед, а также ускоренные алгоритмы игры с самим собой.
Сочетание этих двух факторов позволило обучить Pluribus, используя относительно небольшие мощности и объем памяти. Исследователи говорят, что потребовались облачные ресурсы стоимостью всего $150. «Такая эффективность резко контрастирует с другими недавними знаковыми ИИ-проектами, где для обучения требовались вычислительные мощности стоимостью в миллионы долларов», — пишут они.
Что говорят профи
«Pluribus — сложный соперник, — сказал Фергюсон. — Его трудно подловить на раздаче, ему отлично удается делать тонкие ставки на ценность на ривере».
Элиас добавил, что главное преимущество Pluribus заключается в способности использовать смешанные стратегии, которые и пытаются применять люди. «Для людей это вопрос техники — как делать это в абсолютно случайном порядке и последовательно, — говорит он. — Большинство людей на это просто не способны. Бот играет не просто против каких-то случайных мастеров. Он играет против лучших игроков мира».
Pluribus, может быть, и пугает профессиональных игроков в покер, которые зарабатывают на участии в онлайн-турнирах, но им не стоит беспокоиться, что в следующей игре они с ним столкнутся. «Мы не будем раскрывать программный код. В покер играют с целью заработка, и мы считаем, что раскрытие кода может быть вредным», — сообщил Forbes представитель Facebook Эри Энтин.
Перевод Натальи Балабанцевой