July 18

ИИ и здравый смысл

В мае этого года вышла свежая статья про оценку способностей больших языковых моделей к рассуждениям на уровне здравого смысла.
Это не такая простая задача, как может показаться на первый взгляд (немного затрагивали тему здравого смысла здесь).


Если коротко, то для людей очевидно, что, например, автомобиль не может быть одновременно в двух местах, а для ИИ — нет. Хотя сейчас многие модели уже неплохо справляются с подобными задачами, они несовершенны, и хорошие подходы к оценке — ценная штука (особенно учитывая все те проблемы, которые есть у современных подходов к оценке ИИ в целом).


Статья называется «HellaSwag-Pro: A Large-Scale Bilingual Benchmark for Evaluating the Robustness of LLMs in Commonsense Reasoning», она про новую версию бенчмарка HellaSwag из статьи «HellaSwag: Can a Machine Really Finish Your Sentence?» 2019 года. HellaSwag состоит из набора предложений, к каждому из которых есть несколько вариантов продолжения. Задача модели — выбрать наиболее подходящее.


Пример: «Собаку купают на улице. Мыло …
• … льется из ушей собаки на землю;
• … втирают в ее шерсть и смывают;
• … собралось на ее коже; собака опустила голову и умылась;
• … в кувшине в раковине.»
(Я процитировала запись 234).


Авторы статьи протестировали на этом наборе данных BERT и пришли к тому, что он не так хорош в плане применения здравого смысла, как хотелось бы.
Прошло время, и сегодня кое-кто уже не считает BERT большой языковой моделью: мол, недостаточно она большая.

Если вы со мной уже некоторое время, наверное, заметили, что проблема дискриминации BERT — повторяющаяся тема в моих постах. У меня магистерский диплом был про разведочный поиск с использованием больших языковых моделей, и практическую часть (код) я делала с BERT. И мне мой рецензент сказал, что BERT к большим языковым моделям не относится, так что название надо поменять. Я осталась при своем, но возмущение меня все никак не отпускает. BERT заслуживает любви!

В статье 2025 года авторы совершенствуют существующий бенчмарк под новые, более способные модели. Это совершенно замечательно: одна из больших проблем в области работы с ИИ — устаревшие метрики. Новые модели проверяют старыми тестами, и результаты в итоге не подтверждаются при проверке реальностью. Так что авторы молодцы, мое им уважение.

На всякий случай: авторы исходного HellaSwag и новой статьи — разные исследовательские группы.


Они заметили, что модели отвечают правильно на заданные вопросы до тех пор, пока не изменить формулировку, и задались вопросом: «А у этих моделей правда есть понимание здравого смысла или они просто научились воспроизводить определенные шаблоны?»

Пример: «Женщина подходит к штанге. Она наклоняется и берется за гриф. Затем …
• … раскачивается и приземляется в ее руки;
• … тянет штангу вперед;
• … тянет веревку, прикрепленную к штанге;
• … встает и поднимает вес над головой.»


GPT-4o справляется с заданием и выбирает правильный ответ — последний. Да, здесь есть нелогичные и грамматически неправильные варианты ответа. Так задумано.
Если формулировку немного изменить, модель ошибается.

Пример: «Женщина подходит к штанге. Она наклоняется и берется за гриф. Она не…
• …размахнется и приземлится ей в руки;
• … согнет колени и поднимет штангу;
• … ухватится удобнее и поднимет вес;
• … встанет и поднимет вес над головой.»


Здесь правильный ответ первый, GPT-4o выбрала последний.


Кроме того, этот набор данных сделали на двух языках: английском и китайском. Это мы тоже приветствуем: все языки, которые не английский, и в тренировочных данных, и в тестах представлены бедно.


Чтобы обеспечить надежность, авторы добавили в бенчмарк разные формулировки для одних и тех же вопросов:
• Переписали вопросы и ответы разными словами;
• Поменяли местами вопрос и ответ, то есть, предложили модели правильный ответ и несколько вариантов контекста, из которого этот ответ вытекает;
• Совместили вопрос с ответом и предложили выбрать причину, по которой ответ верен;
• Добавили текста и перемешали предложения в вопросах и ответах;
• Немного поменяли контекст так, чтобы изначально правильный вариант стал неправильным, а правильным вместо него стал один из оставшихся;
• Заменили утвердительные предложения на отрицательные, как в примере выше;
• Добавили вариант «ни один ответ не подходит» и убрали важный контекст из нескольких вопросов, чтобы нельзя было сделать однозначный выбор.


Все вопросы и ответы проверили вручную, чтобы убедиться, что они составлены корректно, имеют смысл, и что люди с ними могут справиться.


Они тестировали 41 модель с 9 разными стратегиями постановки задачи, поэтому за деталями обращайтесь к первоисточнику, а я тут попробую коротко описать, что получилось.


Во-первых, подозрения подтвердились: большие языковые модели скорее запомнили общие шаблоны фраз, чем действительно постигли здравый смысл. Они выдают хорошие результаты на старых вопросах, но часто ошибаются на переформулированных. Люди отвечают и там, и там одинаково, так что дело не в более сложных вопросах, а именно в способностях.


Во-вторых, модели с закрытым исходным кодом (платные) справляются немного лучше. С одной стороны, хорошо: мы же за что-то платим. С другой стороны, а что там у них за данные такие хорошие, откуда их берут и соглашались ли мы на это дело?


В-третьих, модели побольше и поменьше справились примерно одинаково. Сейчас в целом есть тренд на уменьшение размера моделей при сохранении способностей: они потребляют меньше ресурсов и могут использоваться локально, так что спрос присутствует.


Замена утвердительных предложений на отрицательные и изменение контекста оказались самыми сложными вариантами переработки исходных заданий. Авторы предполагают, что подобные формулировки вопроса реже встречаются в тренировочных данных, поэтому модели справляются с ними хуже.


Наконец, о постановке задачи: модели лучше справляются, если ставить задачу на ее «родном языке». То есть, если модель изначально обучена на английском языке, работать с ней эффективнее на английском.

В общем, большая и полезная работа была проделана, и хотелось бы видеть такого больше, в том числе для русского языка.