AI/Math Puzzle и тест ARC-AGI
С чего все началось?
А вот с этого: https://aggressivelyparaphrasing.me/2025/03/31/can-you-solve-this-ai-math-puzzle-and-get-a-prize-i-couldnt/ и разоб этого: https://hn.algolia.com/?q=AI%2FMath+Puzzle
Предисловие:
Автор рассказал о загадочном математическом/ИИ-пазле, который увидел на листовке, приклеенной к столбу в Сан-Франциско. Пазл указывает на URL с призом, но сам автор его не смог решить и делится своим ходом мыслей.
Но автор не решил задачу и решил поделиться своим анализом.
Он описывает различные аспекты задачи, такие как математические операции и термины, используемые в контексте ИИ, пытаясь понять, что же на самом деле скрывается за этим сложным уравнением.
Интересно, что в это же время на другом конце интернета обсуждается прогресс OpenAI в решении задачи ARC-AGI, где используются похожие концепты. ARC-AGI — это тест, предназначенный для проверки способности ИИ обобщать и решать сложные задачи, что вызывает вопросы о его истинной “умности”. Это тест, в котором машины должны пройти через задачи, которые легко решить человеку, но трудны для ИИ.
📑📌Листок:
На листовке, приклеенной к столбу в Сан-Франциско, была следующая формула:
prefix(
[
3!
+ argmax(
softmax(
[log(2), pi + e]
)
)
+ log*(16)
] ^ [
BusyBeaver(4)
+ ⌈H100 flops / A100 flops⌉
+ 1
]
)Ссылка на приз: .ai/givemeprize
Упрощение формулы:
1. Сначала автор вычисляет элементы внутри квадратных скобок:
3! = 6
argmax(softmax([log(2), pi + e])) = 1
log*(16) = 4
BusyBeaver(4) = 13 (по версии автора)
⌈H100 flops / A100 flops⌉ = 4
1 = 1
3. Теперь формула выглядит так:
4. prefix — это функция, которая, вероятно, возвращает префикс, который может быть числовым значением, возможно, связано с научной нотацией или префиксами, как в “эксабайт” (10^18). Таким образом, prefix(11 ^ 18) может означать научный формат для числа, равного 11^18.
😩 Почему автор застрял:
Это итеративный логарифм. На самом деле, log* (или log-star) — это операция, которая означает многократное применение логарифма до тех пор, пока результат не станет меньше или равен 1. В контексте математических задач это не стандартный логарифм, а более сложная операция.
Что такое итерационный логарифм?
• Итерационный логарифм log(x)* применяет логарифм к числу несколько раз. Например:
• Для log(16)*: сначала берем логарифм от 16, результат — примерно 4, затем логарифм от 4 — это примерно 2, затем логарифм от 2 — это примерно 1. Это дает всего три шага.
• Автор неправильно понял это как обычный логарифм, например, log2(16), который дает 4. Именно эта ошибка привела его к неправильным расчетам на первых шагах.
2. Он колебался между двумя значениями BusyBeaver(4).
Вторая проблема возникла с функцией BusyBeaver(4). Это довольно специфичная математическая функция, связанная с теорией машин Тьюринга, которая определяет максимальное количество шагов, которое может выполнить машина Тьюринга при определенной конфигурации.
• BusyBeaver(4) может быть 13 или 107. Автор не был уверен, какое из этих значений использовать, и долго колебался между ними.
• Для большинства людей BusyBeaver(4) = 13 — это правильное значение, так как это более традиционное и часто упоминаемое число в математической литературе. Однако значение 107 — это также возможный результат для другой версии задачи, хотя оно намного больше и труднее интерпретируется.
3. Не понял, что prefix означает SI-префикс (exa, peta, tera и т.п.).
Еще одна проблема, с которой столкнулся автор, — это непонимание того, что prefix в данном контексте означает SI-префикс (например, экса, пета, тера).
• В задаче prefix(11^18) на самом деле нужно было интерпретировать как использование SI-префиксов для обозначения чисел в научной нотации. Это обозначает, что результат задачи можно интерпретировать как число в экспоненциальной форме, например, 10^18.
• Автор не понял этого сразу и долго не мог понять, что означают префиксы вроде exa или tera в данном контексте. Вместо этого он пытался просто посчитать число, не учитывая, что задача на самом деле подразумевает работу с большими числами в научной нотации, используя префиксы.
Итог:
После того как автор получил помощь и разобрался с трудными моментами задачи, он понял, что такие математические загадки не всегда решаются напрямую, и иногда нужно искать дополнительные знания, чтобы расставить правильные акценты (помощь пришла от сообщества lobste.rs). Важные моменты, которые он усвоил:
• Итерационный логарифм (log*) не был ему известен, и это создало путаницу.
• SI-префиксы — это ключ к правильной интерпретации больших чисел, и он не сразу понял их значение.
• Обсуждения в сообществах и комментарии других людей помогли ему разгадать загадку.
🌐💻ARC-AGI
Обе статьи находятся на стыке математики, логики, ИИ и челленджей, что делает их естественными соседями по интересам на таких платформах.
• В одной статье OpenAI кидает суперкомпьютер на задачи.
• В другой — кто-то кидает загадку на столбе и смотрит, кто дойдёт до exa.ai.
Мы рассмотрим реальный пример, где ИИ уже достиг значительных успехов в решении сложных задач, что еще раз поднимает вопросы о развитии ИИ и его способности к “настоящему” обобщению и рассуждениям.
Мы посмотрим, как OpenAI’s “o3” справился с задачей на ARC-AGI — специальном тесте, предназначенном для измерения уровня обобщения ИИ, который был труден для обычных моделей.
Теперь мы подходим к рассмотрению OpenAI’s o3 и его результатов на ARC-AGI, анализируя, как ИИ достиг успехов в решении подобных задач, и какие выводы мы можем сделать о будущем ИИ.
Что такое ARC-AGI?
ARC-AGI (Abstraction and Reasoning Corpus for Artificial General Intelligence) — это бенчмарк, разработанный для оценки способности искусственного интеллекта (ИИ) к обобщению и решению новых задач, требующих абстрактного мышления, подобно человеческому. Его создал Франсуа Шолле в 2019 году, представив в статье "On the Measure of Intelligence". Основная идея ARC-AGI заключается в том, чтобы измерить эффективность приобретения новых навыков ИИ на задачах, которые он ранее не видел, что считается ключевым признаком искусственного общего интеллекта (AGI).
В отличие от традиционных тестов ИИ, которые часто проверяют узкоспециализированные навыки или накопленные знания (так называемую "кристаллизованную" интеллект), ARC-AGI фокусируется на "флюидном" интеллекте — способности рассуждать, адаптироваться и решать незнакомые проблемы с минимальным количеством примеров (обычно 3-5). Задачи в ARC-AGI представляют собой сетки (гриды) с цветными клетками, где ИИ должен вывести правило преобразования на основе демонстрационных пар "вход-выход" и применить его к новой тестовой сетке.
Особенность ARC-AGI в том, что он "лёгок для людей, но труден для ИИ". Люди в среднем решают около 80-85% задач, тогда как лучшие ИИ-системы долгое время показывали гораздо более низкие результаты. Например, до 2024 года топовые модели, такие как GPT-4, набирали лишь около 20-30%. Однако в декабре 2024 года модель OpenAI "o3" достигла 87% на ARC-AGI-1, что стало значительным прорывом, хотя и с использованием дополнительных вычислительных ресурсов.
ARC-AGI-2, запущенный 24 марта 2025 года, поднял планку сложности, сохраняя простоту для людей, но становясь ещё более сложным для ИИ. Он требует новых подходов, таких как адаптация во время тестирования или интерпретация символов, что подчёркивает текущие ограничения ИИ и стимулирует исследования в направлении AGI.
Что достиг “o3” от OpenAI?
В декабре 2024 года компания OpenAI представила модель "o3", которая стала настоящим событием в мире искусственного интеллекта, продемонстрировав впечатляющие результаты на тесте ARC-AGI (Abstraction and Reasoning Corpus for Artificial General Intelligence). Этот бенчмарк, созданный Франсуа Шолле в 2019 году, считается одним из самых сложных испытаний для ИИ, проверяющим его способность к абстрактному мышлению и решению новых задач с минимальным количеством примеров. Давайте разберём, чего достигла "o3", как её успех соотносится с человеческими способностями и что это значит для будущего ИИ.
Модель "o3" показала выдающиеся результаты на первом наборе ARC-AGI-1:
- В режиме с ограниченными вычислительными ресурсами (low-compute, менее $10 тыс.) она набрала 75,7% на полуприватном наборе данных. Это уже превзошло многие предыдущие ИИ-системы, такие как GPT-4, которые застревали на уровне 20–30%.
- В режиме с высоким уровнем вычислений (high-compute, примерно в 172 раза больше ресурсов) "o3" достигла 87,5%, превысив порог в 85%, который часто упоминается как ориентир для "решения" ARC-AGI в рамках ARC Prize.
Однако стоит уточнить: некоторые источники приписывают "o3" диапазон 87,5–91,5%, но официально подтверждён только результат 87,5% в high-compute режиме. Упоминания о 91,5% остаются неподтверждёнными и, вероятно, относятся к предварительным тестам. Кроме того, несмотря на успех, "o3" не получила гран-при ARC Prize, так как конкурс требует не только высокого результата, но и эффективности (low-compute) и открытого исходного кода, чего OpenAI не предоставила.
Как "o3" выглядит на фоне человеческих способностей? Средний человек, не обладая специальной подготовкой, решает 75–80% задач ARC-AGI-1. Это значит, что в low-compute режиме "o3" сравнялась с обычным человеком, а в high-compute — превзошла его. Однако специалисты с развитым абстрактным мышлением (учёные, инженеры) стабильно набирают более 95%, что пока остаётся недосягаемой планкой для "o3". Таким образом, модель приблизилась к человеческому уровню, но не достигла вершины, характерной для лучших умов.
Успех "o3" на ARC-AGI-1 оказался лишь частью истории. 24 марта 2025 года был запущен ARC-AGI-2 — обновлённый и ещё более сложный бенчмарк. Здесь "o3" показала куда более скромные результаты: в high-compute режиме её оценивают на уровне 15–20%. Это подчёркивает, что успех модели был специфичен для первого набора данных, где она, к слову, обучалась на 75% публичного тренировочного набора. ARC-AGI-2 требует новых подходов, таких как адаптация в реальном времени или интерпретация символов, и пока остаётся открытым вызовом для ИИ.
Достижения "o3" — это, безусловно, прорыв. Впервые ИИ приблизился к человеческому уровню в задаче, которая считалась "лёгкой для людей, но трудной для машин". Однако Франсуа Шолле и другие эксперты отмечают, что "o3" не является искусственным общим интеллектом (AGI). Модель всё ещё проваливает некоторые простые задачи, зависит от огромных вычислительных ресурсов и человеческой разметки данных. Её успех — это скорее демонстрация потенциала современных подходов, чем окончательное решение проблемы AGI.
Модель "o3" от OpenAI показала, что ИИ способен преодолевать барьеры, которые казались непреодолимыми ещё несколько лет назад. С результатом 87,5% на ARC-AGI-1 она превзошла среднестатистического человека, но осталась позади лучших человеческих умов. Новый тест ARC-AGI-2 напомнил, что путь к настоящему AGI ещё долгий. Возможно, "o3" — это не конец, а лишь начало новой эры исследований, где ИИ будет учиться не просто решать задачи, а понимать их так, как это делает человек.
• o3-low — более дешевый режим (~$17–$20 за задачу), с точностью 75–82%.
• o3-high — более мощный режим (~$1k–$3k за задачу), с точностью 87–91,5%.
Интересно, что для достижения таких результатов OpenAI, вероятно, потратил сотни тысяч долларов на решение 400 задач в высококачественном режиме.
Хотя результаты впечатляют, есть и несколько важных замечаний:
• Очень дорого: Стоимость решения одной задачи может составлять тысячи долларов, что делает этот подход экономически непрактичным для широкого использования. Для сравнения, решение человеком может стоить всего $5 за задачу.
• Не AGI: Несмотря на успехи, passing ARC-AGI не доказывает наличие AGI (Artificial General Intelligence). Даже создатели ARC отмечают, что о3 все равно не может решить некоторые простые задачи, которые можно было бы считать trivial для человека. Это означает, что модель все еще не обладает реальной гибкостью и универсальностью в рассуждениях.
• Будущие улучшения: Планируется новый тест ARC-AGI-2, который, скорее всего, будет намного сложнее, и результаты o3 могут значительно снизиться.
Для достижения таких высоких результатов “o3” использует комбинацию методов:
• Поиск на основе дерева рассуждений — это подход, схожий с тем, который используется в AlphaZero (например, для игры в шахматы), где модель делает множество шагов рассуждений и использует их для поиска наилучшего решения.
• o3 показал почти человеческие (или даже лучшие) результаты на тестах ARC-AGI, благодаря комбинации LLM (больших языковых моделей) и мощных поисковых стратегий.
• Этот подход крайне дорогой, но он демонстрирует, что с достаточными вычислительными ресурсами и методичными стратегиями ИИ может превзойти средних людей в решении логических задач.
• Однако пройти ARC-AGI не означает, что мы имеем дело с AGI. “o3” все еще сталкивается с трудностями при решении некоторых простых задач.
• В будущем снижение затрат на вычисления и дальнейшее развитие методов позволят ИИ более эффективно решать задачи в таких областях, как программирование, математика, исследования и многое другое.