К сожалению, сайт не работает без включенного JavaScript. Пожалуйста, включите JavaScript в настройках вашего браузера.

Искусственный интеллект не справился с китайским аналогом ЕГЭ по математике

Фото: Freepik
Фото: Freepik
На едином государственном экзамене в Китае искусственный интеллект набрал высокие баллы по английскому языку, но завалил математику.

Ученые из Шанхайской лаборатории искусственного интеллекта провели исследование, чтобы выяснить, способны ли нейросети генерировать верные ответы на задания гаокао — всекитайского государственного экзамена, позволяющего выпускникам школ поступать в вузы. Эксперты протестировали чат-боты шести ИИ-моделей с открытым исходным кодом, а также GPT-4o от Open AI.

Оказалось, что лучше всего нейросети знают английский язык: в среднем им удалось верно ответить на 81% вопросов. По китайскому языку и литературе ИИ правильно выбрал 67% ответов, а по математике — лишь 36%. В целом лучше всего проявила себя многоязычная модель Qwen2-72B компании Alibaba, допустившая всего 28% ошибок в тестах по трем предметам. За ней следуют GPT-4o и недавно разработанная модель Шанхайской лаборатории.

Гаокао включает в себя не только тестовую часть, но и вопросы, предполагающие развернутый ответ в форме эссе. В ходе эксперимента такие эссе проверяли по меньшей мере три преподавателя, которые до последнего не знали, кто писал полученный ими текст. Выяснив, что работы сгенерированы искусственным интеллектом, эксперты сообщили, что нейросети неплохо знают современный китайский язык, но с трудом понимают отрывки из классики и не умеют использовать идиомы.

Оценивая решение математических задач, проверяющие отметили неорганизованность и запутанность рассуждений ИИ: даже если ответ был верным, на пути к нему часто встречались ошибки. Нейросети отлично помнили формулы — но не могли сообразить, где и какие применять.

Искусственный интеллект не впервые демонстрирует слабость в точных науках. На предварительном этапе международного математического соревнования, проведенного компанией Alibaba в июне 2024 года, нейросетям удалось в среднем набрать 18 баллов из 120 возможных. Максимальный балл у ИИ при этом составил 34, а у людей — 113.

Современные нейросети получают информацию, сформулированную в основном на человеческих языках, в том числе китайском и английском. Это объясняет высокие результаты ИИ по этим предметам и низкие — по математике.

Исследователи отмечают, что в настоящее время ИИ-сервисы хорошо умеют обобщать колоссальные объемы данных. Нейросети делают это настолько быстро, что им нет равных в производительности. Однако с генерацией уникального контента ИИ справляется намного хуже: он часто противоречит сам себе и не умеет выстраивать логические связи. Логика и творчество пока остаются в основном прерогативой человека — поэтому китайские исследователи призывают студентов не только заучивать необходимую информацию, но и развивать критическое и новаторское мышление.

Мы в соцсетях:

Мобильное приложение Forbes Russia на Android

На сайте работает синтез речи

Рассылка:

Наименование издания: forbes.ru

Cетевое издание «forbes.ru» зарегистрировано Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций, регистрационный номер и дата принятия решения о регистрации: серия Эл № ФС77-82431 от 23 декабря 2021 г.

Адрес редакции, издателя: 123022, г. Москва, ул. Звенигородская 2-я, д. 13, стр. 15, эт. 4, пом. X, ком. 1

Адрес редакции: 123022, г. Москва, ул. Звенигородская 2-я, д. 13, стр. 15, эт. 4, пом. X, ком. 1

Главный редактор: Мазурин Николай Дмитриевич

Адрес электронной почты редакции: press-release@forbes.ru

Номер телефона редакции: +7 (495) 565-32-06

На информационном ресурсе применяются рекомендательные технологии (информационные технологии предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей сети «Интернет», находящихся на территории Российской Федерации)

Перепечатка материалов и использование их в любой форме, в том числе и в электронных СМИ, возможны только с письменного разрешения редакции. Товарный знак Forbes является исключительной собственностью Forbes Media Asia Pte. Limited. Все права защищены.
AO «АС Рус Медиа» · 2024
16+