January 1

Математический рубеж (FrontierMath) — набор сверхсложных задач для оценки математических способностей нейросетей

Не так давно (~ два месяца назад) международная группа математиков, включая Теренса Тао, закончила работу над тестовым набором сверхсложных математических задач «Математический рубеж» (FrontierMath).

epoch.ai/frontiermath

Он предназначен для оценки математических способностей нейросетей.

Задачи охватывают большинство разделов современной математики: от теории чисел и вещественного анализа, до абстрактных вопросов алгебраической геометрии и теории категорий.

Для решения одной задачи понадобится от нескольких часов до нескольких дней — либо вы вообще не сможете ее решить.

Каждая задача имеет один конкретный числовой ответ. Нейросеть должна дать этот ответ, иначе задача считается нерешенной. То, как нейросеть пришла к ответу, в оценке ее способностей не учитывается.

Математический рубеж использует новые, ранее нигде неопубликованные задачи, составленные профессиональными математиками, экспертами в своей области. Решение нескольких задач открыто.

Современные нейросети решают менее 2% задач, что свидетельствует об огромном разрыве между возможностями ИИ и мастерством математического сообщества.

Однако, совсем недавно, нейросеть o3 научилась решать\подбирать ответ к каждой четвертой задаче Математического рубежа.


Подробности приведены в препринте.

Glazer et al. 2024.

FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI.