Последний экзамен человечества

Именно такое хайповое название — Humanity's Last Exam — носит проект, запущенный в сентябре прошлого (2024) года, и открытый для публики несколько дней назад.

Инициаторы проекта — компания Scale AI, обеспечивающая пользователей размеченными данными для обучения ИИ, и Center for AI Safety (CAIS), которая занимается обеспечением безопасного внедрения ИИ. Обе базируются в США.

Цель проекта: выяснить, насколько мы — прогрессивное человечество — близки к созданию ИИ, способного рассуждать на уровне профессиональных экспертов.

Для этого создан самый сложный в мире экзамен для ИИ.

https://lastexam.ai/

Экзамен состоит из 3000 вопросов, охватывающих более ста разнообразных областей знаний. Он призван стать последним академическим экзаменом такого рода — со столь широким охватом предметов и столь сложными вопросами. Считается, что человечество вложило в его создание свои наивысшие возможности.

Для нас — увлеченных математикой — приятно то, что наибольшая часть вопросов (42%) связана с математикой.

Все вопросы были составлены профессионалами в своей области. Для их привлечения компании пообещали, что тот, кто пришлет вопрос, который, после строго отбора, будет включен в экзамен, станет соавтором статьи и примет участие в розыгрыше сумм из фонда в $500 тыс.

При этом вопрос должен быть сложным для неспециалистов, ответ на вопрос нельзя найти в интернете и он не должен содержать подвох. Исследования показали, что если случайно выбранный студент может понять, о чем его спрашивают, то передовые системы ИИ смогут легко ответить на такой вопрос. Поэтому компании приглашали для составления вопросов профессионалов с более, чем пятилетним опытом работы в своей области. К настоящему времени в экзамен включены вопросы исследователей из более, чем 500 институтов 50 стран.

Вопросы экзамена, доступны для скачивания, но тестовый набор вопросов, предназначенный для проверки ИИ, закрыт.

Также на сайте проекта приведены восемь вопросов, из которых один относится к математике, и еще один к компьютерным наукам.

По итогам экзамена передовые ИИ модели, включая новорожденный Дипсик, смогли правильно ответить не более, чем на 10% вопросов экзамена.

Человечеству пока еще есть, чем гордиться.

Статья о проекте есть в архиве препринтов.
https://arxiv.org/abs/2501.14249