Искусственный интеллект не справился с китайским аналогом ЕГЭ по математике
Ученые из Шанхайской лаборатории искусственного интеллекта провели исследование, чтобы выяснить, способны ли нейросети генерировать верные ответы на задания гаокао — всекитайского государственного экзамена, позволяющего выпускникам школ поступать в вузы. Эксперты протестировали чат-боты шести ИИ-моделей с открытым исходным кодом, а также GPT-4o от Open AI.
Оказалось, что лучше всего нейросети знают английский язык: в среднем им удалось верно ответить на 81% вопросов. По китайскому языку и литературе ИИ правильно выбрал 67% ответов, а по математике — лишь 36%. В целом лучше всего проявила себя многоязычная модель Qwen2-72B компании Alibaba, допустившая всего 28% ошибок в тестах по трем предметам. За ней следуют GPT-4o и недавно разработанная модель Шанхайской лаборатории.
Гаокао включает в себя не только тестовую часть, но и вопросы, предполагающие развернутый ответ в форме эссе. В ходе эксперимента такие эссе проверяли по меньшей мере три преподавателя, которые до последнего не знали, кто писал полученный ими текст. Выяснив, что работы сгенерированы искусственным интеллектом, эксперты сообщили, что нейросети неплохо знают современный китайский язык, но с трудом понимают отрывки из классики и не умеют использовать идиомы.
Оценивая решение математических задач, проверяющие отметили неорганизованность и запутанность рассуждений ИИ: даже если ответ был верным, на пути к нему часто встречались ошибки. Нейросети отлично помнили формулы — но не могли сообразить, где и какие применять.
Искусственный интеллект не впервые демонстрирует слабость в точных науках. На предварительном этапе международного математического соревнования, проведенного компанией Alibaba в июне 2024 года, нейросетям удалось в среднем набрать 18 баллов из 120 возможных. Максимальный балл у ИИ при этом составил 34, а у людей — 113.
Современные нейросети получают информацию, сформулированную в основном на человеческих языках, в том числе китайском и английском. Это объясняет высокие результаты ИИ по этим предметам и низкие — по математике.
Исследователи отмечают, что в настоящее время ИИ-сервисы хорошо умеют обобщать колоссальные объемы данных. Нейросети делают это настолько быстро, что им нет равных в производительности. Однако с генерацией уникального контента ИИ справляется намного хуже: он часто противоречит сам себе и не умеет выстраивать логические связи. Логика и творчество пока остаются в основном прерогативой человека — поэтому китайские исследователи призывают студентов не только заучивать необходимую информацию, но и развивать критическое и новаторское мышление.