Иллюзия рассуждающих моделей

Я уже жаловалась на то, что в области ИИ выходит неадекватное количество публикаций? Да, я думаю, что жаловалась.

А на то, что не все публикации хорошего качества? Скорее всего, тоже да.

Сегодня приведу вам яркий пример того, как (иногда) ведется дискуссия в сообществе. Мы коротко рассмотрим две статьи: «The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity» и «The Illusion of the Illusion of Thinking». Последняя не прям статья, а комментарий к первой статье. Обе работы опубликованы в июне текущего года.

Статья

Авторы «The Ilusion of Thinking» задались целью выяснить, насколько рассуждающие модели на самом деле хорошо справляются с решением разнообразных задач. Рассуждающие модели – это те, которые сначала генерируют план решения задачи, а потом расписывают вам, что было сделано и как. Они хорошо себя показывают в заданиях на написание кода и решении математических задач, а авторы статьи захотели их проверить на чём-нибудь ещё.

Они приводят ряд проблем с рассуждениями у больших моделей, которые ранее были описаны в литературе. В частности, процесс рассуждений, который модель генерирует, совершенно не обязательно совпадает с тем, что она на самом деле делает. И не гарантирует того, что результат получится такой, какой вы ожидаете. Еще модели иногда выдают чрезмерно длинный «мыслительный процесс», так что весь доступный объем токенов уходи на него, и на результат ничего не остается. С последним мне доводилось сталкиваться в работе с Qwen (у ИИ не бывает расстройств психики, но у этой модели явно невроз). Наконец, с самими подходами к оценке моделей есть масса проблем, о которых мы уже говорили неоднократно.

Чтобы всё как следует протестировать, авторы предлагают использовать контролируемую среду, в которой можно управлять сложностью задач и смотреть, как она влияет на точность решения. Кроме того, они попарно сравнивают между собой точность одних и тех же моделей с рассуждениями и без.

Оценивали все модели на четырех головоломках:

«Ханойские башни»;
Задача на перестановку шашек разного цвета так, чтобы в итоге получилось расположение, зеркальное относительно исходного;
«Переправа через реку»;
Задача, в которой надо правильно пересобрать башенку из разноцветных блоков.

На рисунке все задачи представлены слева направо.

Схема из статьи

Если вы любитель головоломок, то точно все их видели. Сложность задач можно контролировать: например, в задаче с башнями можно увеличить число дисков и ограничить максимально допустимое число ходов, и с другими можно поступить подобным образом. Авторы подготовили задачи трех уровней сложности и заметили, что до определенного момента длина генерируемых рассуждений растет параллельно с увеличением сложности задачи. После того самого «определенного момента» длина рассуждений начинает снижаться. Наконец, наступает момент, в котором точность решения сводится к нулю.

Проанализировав «мыслительный процесс», авторы пишут, что, решая более простые задачи, модели часто сначала приходят к правильному решению, но затем всё равно генерируют описания неправильных вариантов решения, расходуя токены. В итоге выдают правильный ответ, но только перебрав несколько вариантов. По мере повышения сложности картина меняется: сначала описаны неверные варианты, а в конце модель приходит к правильному ответу. Наконец, начиная с определенного момента, модель выбирает изначально неправильное решение и придерживается его до конца, соответственно, ответ в итоге неверный.

Графики из статьи

На графиках выше сравнивается точность ответов моделей, когда они генерируют поток рассуждений. Первые два графика относятся к задаче с башнями, оставшиеся – к задаче с шашками. На голубых графиках результаты модели DeepSeek-R1, на оранжевых – Claude-3.7-Sonnet. Наконец, на каждом графике представлена точность, которую модель выдает самостоятельно (непрерывная линия) и точность, которую модель выдает, когда ей заранее дали алгоритм решения задачи (пунктирная линия). По вертикальной оси отложена точность ответов, по горизонтальной – сложность задачи. В задаче с башнями сложность измеряется числом дисков, а в задаче с шашками – числом шашек.

Везде точность снижается по мере усложнения задачи, причем не важно, дали заранее алгоритм решения или нет.

Авторы признают, что их задачи не отражают всей сложности реального мира, а модели использованы закрытые, то есть, такие, которые не предоставляют доступ к своей архитектуре и тренировочным данным. Это значит, что «заглянуть внутрь», как команда Anthropic сделала с одной из своих моделей, нельзя было.

Критика

Ну что, перейдем теперь к самому интересному?

Автор критического комментария, кстати, взял модель Claude Opus себе в соавторы. По-моему, это забавная шутка.

Если коротко пересказывать этот комментарий, получится следующее: «Это не модели бестолковые, а эксперимент ваш. Вы вообще читали сами, что у вас получилось?»

Но в научном сообществе так выражаться не принято, поэтому автор аккуратно перечисляет недостатки работы коллег.

Во-первых, во многих случаях, которые были отнесены к «коллапсам» (ответ неверный, точность равна нулю) связаны не с ограничением способностей, а с ограничением на число токенов в ответе. Модели там ровно так и пишут: «Делаем то-то и то-то, пока не дойдем до конца. Расписывать не буду, токены закончились». И описанный подход к решению верный, просто ответа нет в конце. Эти ситуации проморгала автоматизированная система оценки, потому что авторы исходного эксперимента не учли разницу между «ответ неверный» и «ответ не поместился».

Для большей убедительности автор критического комментария дал моделям ту же задачу, только вместо расписывания каждого шага попросил написать функцию на языке программирования Lua: такой подход требует гораздо меньше токенов. Точность решения получилась высокая для высокого уровня сложности, где авторы предыдущей статьи столкнулись с коллапсом.

Во-вторых, некоторые задачи из предыдущей статьи оказались заведомо нерешаемыми. Например, в задаче с лодкой есть варианты, в которых надо переправить на другой берег шесть и более объектов, а вместительность лодки – три объекта. Модели не дали ответа, потому что ответа нет, а авторы посчитали эти варианты как неверные.

Кроме того, с определением сложности задач тоже были проблемы. У задачи с башнями, например, простое решение вне зависимости от числа дисков – оно просто требует большего числа ходов. А вот в задаче с переправой через реку всё гораздо сложнее, так что их следовало оценивать по-разному.

Короче говоря, были экспериментаторы несколько невнимательны, хоть и преследовали благую цель.

Заключение

Это очень замечательный пример. Во-первых, он демонстрирует, что не всякое исследование хорошо и что всё надо внимательно проверять. Положа руку на сердце, я бы, скорее всего, не подумала так глубоко проверять результаты первой статьи, если бы не прочитала вторую. Это ценный урок, и теперь я буду внимательнее.

Во-вторых, это пример здоровой дискуссии по важной для сообщества теме: всё на доказательствах, всё открыто. Данные доступны, эксперимент был доступен для воспроизведения и критики. Это прекрасно, и именно так наука и должна делаться.