Иллюзия рассуждающих моделей
Я уже жаловалась на то, что в области ИИ выходит неадекватное количество публикаций? Да, я думаю, что жаловалась.
А на то, что не все публикации хорошего качества? Скорее всего, тоже да.
Сегодня приведу вам яркий пример того, как (иногда) ведется дискуссия в сообществе. Мы коротко рассмотрим две статьи: «The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity» и «The Illusion of the Illusion of Thinking». Последняя не прям статья, а комментарий к первой статье. Обе работы опубликованы в июне текущего года.
Статья
Авторы «The Ilusion of Thinking» задались целью выяснить, насколько рассуждающие модели на самом деле хорошо справляются с решением разнообразных задач. Рассуждающие модели – это те, которые сначала генерируют план решения задачи, а потом расписывают вам, что было сделано и как. Они хорошо себя показывают в заданиях на написание кода и решении математических задач, а авторы статьи захотели их проверить на чём-нибудь ещё.
Они приводят ряд проблем с рассуждениями у больших моделей, которые ранее были описаны в литературе. В частности, процесс рассуждений, который модель генерирует, совершенно не обязательно совпадает с тем, что она на самом деле делает. И не гарантирует того, что результат получится такой, какой вы ожидаете. Еще модели иногда выдают чрезмерно длинный «мыслительный процесс», так что весь доступный объем токенов уходи на него, и на результат ничего не остается. С последним мне доводилось сталкиваться в работе с Qwen (у ИИ не бывает расстройств психики, но у этой модели явно невроз). Наконец, с самими подходами к оценке моделей есть масса проблем, о которых мы уже говорили неоднократно.
Чтобы всё как следует протестировать, авторы предлагают использовать контролируемую среду, в которой можно управлять сложностью задач и смотреть, как она влияет на точность решения. Кроме того, они попарно сравнивают между собой точность одних и тех же моделей с рассуждениями и без.
Оценивали все модели на четырех головоломках:
- «Ханойские башни»;
- Задача на перестановку шашек разного цвета так, чтобы в итоге получилось расположение, зеркальное относительно исходного;
- «Переправа через реку»;
- Задача, в которой надо правильно пересобрать башенку из разноцветных блоков.
На рисунке все задачи представлены слева направо.
Если вы любитель головоломок, то точно все их видели. Сложность задач можно контролировать: например, в задаче с башнями можно увеличить число дисков и ограничить максимально допустимое число ходов, и с другими можно поступить подобным образом. Авторы подготовили задачи трех уровней сложности и заметили, что до определенного момента длина генерируемых рассуждений растет параллельно с увеличением сложности задачи. После того самого «определенного момента» длина рассуждений начинает снижаться. Наконец, наступает момент, в котором точность решения сводится к нулю.
Проанализировав «мыслительный процесс», авторы пишут, что, решая более простые задачи, модели часто сначала приходят к правильному решению, но затем всё равно генерируют описания неправильных вариантов решения, расходуя токены. В итоге выдают правильный ответ, но только перебрав несколько вариантов. По мере повышения сложности картина меняется: сначала описаны неверные варианты, а в конце модель приходит к правильному ответу. Наконец, начиная с определенного момента, модель выбирает изначально неправильное решение и придерживается его до конца, соответственно, ответ в итоге неверный.
На графиках выше сравнивается точность ответов моделей, когда они генерируют поток рассуждений. Первые два графика относятся к задаче с башнями, оставшиеся – к задаче с шашками. На голубых графиках результаты модели DeepSeek-R1, на оранжевых – Claude-3.7-Sonnet. Наконец, на каждом графике представлена точность, которую модель выдает самостоятельно (непрерывная линия) и точность, которую модель выдает, когда ей заранее дали алгоритм решения задачи (пунктирная линия). По вертикальной оси отложена точность ответов, по горизонтальной – сложность задачи. В задаче с башнями сложность измеряется числом дисков, а в задаче с шашками – числом шашек.
Везде точность снижается по мере усложнения задачи, причем не важно, дали заранее алгоритм решения или нет.
Авторы признают, что их задачи не отражают всей сложности реального мира, а модели использованы закрытые, то есть, такие, которые не предоставляют доступ к своей архитектуре и тренировочным данным. Это значит, что «заглянуть внутрь», как команда Anthropic сделала с одной из своих моделей, нельзя было.
Критика
Ну что, перейдем теперь к самому интересному?
Автор критического комментария, кстати, взял модель Claude Opus себе в соавторы. По-моему, это забавная шутка.
Если коротко пересказывать этот комментарий, получится следующее: «Это не модели бестолковые, а эксперимент ваш. Вы вообще читали сами, что у вас получилось?»
Но в научном сообществе так выражаться не принято, поэтому автор аккуратно перечисляет недостатки работы коллег.
Во-первых, во многих случаях, которые были отнесены к «коллапсам» (ответ неверный, точность равна нулю) связаны не с ограничением способностей, а с ограничением на число токенов в ответе. Модели там ровно так и пишут: «Делаем то-то и то-то, пока не дойдем до конца. Расписывать не буду, токены закончились». И описанный подход к решению верный, просто ответа нет в конце. Эти ситуации проморгала автоматизированная система оценки, потому что авторы исходного эксперимента не учли разницу между «ответ неверный» и «ответ не поместился».
Для большей убедительности автор критического комментария дал моделям ту же задачу, только вместо расписывания каждого шага попросил написать функцию на языке программирования Lua: такой подход требует гораздо меньше токенов. Точность решения получилась высокая для высокого уровня сложности, где авторы предыдущей статьи столкнулись с коллапсом.
Во-вторых, некоторые задачи из предыдущей статьи оказались заведомо нерешаемыми. Например, в задаче с лодкой есть варианты, в которых надо переправить на другой берег шесть и более объектов, а вместительность лодки – три объекта. Модели не дали ответа, потому что ответа нет, а авторы посчитали эти варианты как неверные.
Кроме того, с определением сложности задач тоже были проблемы. У задачи с башнями, например, простое решение вне зависимости от числа дисков – оно просто требует большего числа ходов. А вот в задаче с переправой через реку всё гораздо сложнее, так что их следовало оценивать по-разному.
Короче говоря, были экспериментаторы несколько невнимательны, хоть и преследовали благую цель.
Заключение
Это очень замечательный пример. Во-первых, он демонстрирует, что не всякое исследование хорошо и что всё надо внимательно проверять. Положа руку на сердце, я бы, скорее всего, не подумала так глубоко проверять результаты первой статьи, если бы не прочитала вторую. Это ценный урок, и теперь я буду внимательнее.
Во-вторых, это пример здоровой дискуссии по важной для сообщества теме: всё на доказательствах, всё открыто. Данные доступны, эксперимент был доступен для воспроизведения и критики. Это прекрасно, и именно так наука и должна делаться.