Иллюзия мышления: как Apple доказали, что AI не умеет рассуждать
Привет! Меня зовут Саша Журавлёв, я фаундер и управляющий партнёр венчурного фонда Mento VC. Мы инвестируем в технологические стартапы на ранних стадиях — в том числе в AI-команды.
Сегодня на рынке появляются нейросети, которые якобы умеют «думать»: они рассуждают шаг за шагом, проверяют себя, строят логические цепочки. Их называют Large Reasoning Models (LRMs) — и кажется, что это следующий шаг к настоящему искусственному интеллекту.
Apple решили проверить, так ли это. Они провели масштабное исследование, в котором дали моделям задачи с разной сложностью, возможность размышлять, встроили в промпты готовые алгоритмы… И всё равно: модели ошибаются. Причём чем сложнее задача — тем быстрее они сдаются.
Apple назвали это "иллюзией мышления". Мы с командой прочитали исследование и сделали короткий обзор на русском — с акцентом на ключевые выводы и практическое значение.
Если вам интересно глубже погрузиться в это исследование, то его можно найти здесь.
Почему это важно сейчас
На рынке появляются новые поколения моделей — GPT-4o, Claude 3.5, Gemini Thinking — с упором на reasoning. Они позиционируются как шаг к AGI. Но Apple показывает: даже лучшие из них пока не умеют по-настоящему думать.
Что уже было известно
Ранее модели в основном тестировали на математических задачах. Чтобы они справлялись лучше, добавляли хитрые приёмы: просили «думать вслух» (Chain-of-Thought), встроить самопроверку или обучали на размышлениях.
Это действительно помогало, но у подхода были три ограничения:
- Многие тесты утекли в обучающие датасеты — модель могла просто запомнить ответ.
- Финальный ответ не говорит, как модель его получила. Он не гарантирует наличие логики.
- Мы не видим сам процесс мышления. Только правильный/неправильный финал.
Apple решили провести честный эксперимент — не на знание, а на мышление.
Как проверяли мышление
Вместо школьной математики исследователи взяли четыре логические головоломки. Они легко масштабируются по сложности и требуют именно пошагового мышления, а не знаний.
Вот какие задачи использовали:
- Башня Ханоя — перенести диски между штырями по строгим правилам.
- Шашечные прыжки — поменять местами красные и синие фишки в ряду, двигаясь строго по правилам.
- Переправа через реку — актёры и агенты должны переправиться, не нарушая правил безопасности.
- Мир блоков — перестроить башни из кубиков в заданный порядок.
Главное: модели проверяли не только по финальному ответу, но и по процессу. Как они размышляли, где ошибались, как и когда находили правильный путь. Это позволило увидеть мышление «внутри» модели — и понять, где оно ломается.
Что показал эксперимент
- Низкая — стандартные LLM без размышлений справляются лучше.
- Средняя — модели с рассуждениями выигрывают.
- Высокая — все модели терпят крах.
Простые задачи — мышление мешает
Обычные модели, которые сразу дают ответ, справлялись точнее и быстрее. «Мыслящие» модели тратили больше токенов и чаще сбивались. Chain-of-Thought тут только усложнял процесс.
Средние задачи — рассуждения помогают
Когда задача становилась чуть сложнее, логическая цепочка действительно помогала. Модель пробовала разные варианты, исправлялась и находила верный путь.
Сложные задачи — модели ломаются
Самое неожиданное: по мере роста сложности модели начинают думать меньше. Они тратят всё меньше токенов на размышления и просто сдаются. Не из-за ограничения по длине — они просто прекращают пытаться.
Apple сравнивают это с цифровым выгоранием: модель как будто теряет волю к мышлению.
Пример: как модель не справилась с «Башней Ханоя»
«Башня Ханоя» — классическая задача на планирование. Чтобы перенести 10 дисков по правилам, нужно сделать 102 хода.
Что сделали исследователи: встроили в промпт готовый алгоритм решения. Модели не нужно было ничего изобретать — только выполнить пошаговые действия.
- С 5 дисками модель справилась.
- С 10 — дошла до 80–90 хода и ошиблась.
- С 15 — даже не начала решать правильно.
Даже когда решение уже было в инструкции, модель не справилась. Она сбивалась, терялась, нарушала правила. Это показывает: проблема не только в мышлении, но и в базовых механизмах — логике, памяти, устойчивости к длинным планам.
Что происходит «в голове» модели
Apple проанализировали не только ответы, но и ход размышлений. Для каждой задачи они изучили, как развивалась мысль — по токенам.
- На лёгких задачах модель часто находила правильное решение, но продолжала думать дальше — и путалась. Это называют overthinking.
- На средней сложности сначала шли ошибки, но позже появлялся правильный путь — модель училась по ходу.
- На высокой сложности размышления обрывались. Модель даже не начинала искать решение.
Главный вывод: reasoning у нейросетей нестабилен. То слишком длинный, то слишком короткий, то просто исчезает. Даже с достаточным ресурсом.
Вывод: мышление в моделях — это пока иллюзия
- Нейросети умеют имитировать мышление, но не умеют думать.
- Они не могут надёжно исполнять даже простые инструкции.
- Их размышления неустойчивы и не обобщаются между задачами.
Исследование Apple показало: красивые рассуждения — ещё не признак интеллекта. Перед нами — продвинутые генераторы текста, но не логические агенты.
Что с этим делать, если вы используете GPT в работе
Исследование Apple полезно не только моделям — но и тем, кто с ними работает. Вот несколько практических выводов:
1. Не доверяйте reasoning «на автомате»
Даже если модель рассуждает уверенно, это не значит, что логика корректна. Проверяйте ключевые шаги — особенно в сложных задачах с планированием, вычислениями или логикой.
2. Не усложняйте промпт без нужды
На простых задачах логическая цепочка (Chain-of-Thought) может только навредить. Иногда лучше запросить прямой ответ, чем заставлять модель «думать».
3. Разбивайте сложные задачи на части
Модели «сдаются» при росте сложности. Лучше задавать одну подзадачу за раз, чем пытаться получить сразу всё. Это ближе к реальному мышлению — и лучше работает.
4. Не путайте самоуверенность с точностью
Модель может с уверенностью выдавать ошибочное рассуждение. Особенно на сложных или незнакомых задачах. Уверенность ≠ корректность.
Для нас в Mento VC это не повод сбавить интерес к AI, а наоборот — подтверждение, что всё самое важное только начинается. Мы ищем команды, которые работают не с иллюзиями, а с реальностью: строят инфраструктуру reasoning, переосмысляют архитектуры, ищут новые способы научить модели думать.
Если вы тоже следите за тем, как развивается AI и хотите быть ближе к лучшим сделкам в этой сфере — напишите Кате (@katiatatulova), нашей Head of Operations. Она расскажет, как присоединиться к Mento VC и начать инвестировать вместе с нами.
А чтобы быть на связи и получать лучшие материалы про AI, стартапы и венчур на русском языке — подписывайтесь на мой Telegram: Саша Журавлёв | Mento VC.