February 17, 2024

AI уже создает датасеты, которые хорошо учат модели, а теперь может оценивать свои же результаты лучше человека Или, если не лучше, то как минимум быстрее

LLM развились до того момента, когда человек стал для них ограничением. Точнее — человеческая обратная связь выходит слабым звеном.
Чтобы развиваться дальше, AI нужно избавиться от человека — заголовок, достойный желтой прессы. Но если серьезно, об успешной попытке сделать это рассказали Meta и NYU.

В конце прошлого года стали активно обсуждать, что Meta серьезно вкладывается в чипы. Из 500 тысяч проданных Nvidia чипов H100GPU 150 ушло к Meta (еще столько же — к Microsoft) по данным Omidia Research.

18 января Марк Цукерберг рассказал, что Meta вступила в гонку за AGI, причем в open-source формате. В тот же день от авторов Meta c коллегами из NYU вышла статья Self-Rewarding Language Model и многие посчитали, что одно прямо следует из другого и статья — первый (заметный) шаг Meta к общему ИИ. Так это или нет пока судить сложно, но разобраться в любом случае интересно.

Self-rewarding предполагает, что обратная связь от человека не нужна для обучения с подкреплением. Что у классического PPO, который подразумевает обучение модели вознаграждения и сделал ChatGPT таким человечным, что у более нового DPO, для которого не нужно обучать модель вознаграждения, есть серьезное узкое место — объем и качество человеческой обратной связи. Это долго, дорого, а еще люди часто ошибаются. К тому же, если речь про классическое обучение с подкреплением и человеческой обратной связью, модель вознаграждения остается статичной после обучения.

Авторы предлагают вместо статичной модели вознаграждения использовать для обратной связи саму LLM. Подход состоит из двух итеративных частей. Модель текущей итерации генерирует ответы и вместе с этим сразу дает оценку этим ответам. По этим данным с помощью DPO обучается модель следующей итерации, и процесс повторяется. Предполагается что для нулевой итерации уже есть начальная модель и небольшое количество размеченных человеком данных.

Начальную модель дообучают на двух наборах данных: IFT, intsruction fine-tuning и EFT, evaluation fine-tuning. Второй датасет, вообще говоря, не необходим, но с ним, как оказалось в эксперименте, качество лучше. В EFT входной промт просит модель оценить качество ответа. В оценке содержатся пошаговые рассуждения и финальная оценка. Оценка ставится как в школе — по пятибалльной шкале. В ходе итераций модель может сама модифицировать обучающий датасет, а именно генерировать дополнительные примеры. После этого сопряженные данные в виде промпт + лучший ответ + худший ответ сами становятся обучающими данными AIFT, AI feedback training. C помощью DPO обучается следующее поколение модели.

В итоге полностью одна итерация выглядит так: генерируется новый промпт, используя few-shot из примеров IFT. Затем формируется некоторый набор ответов, каждому из которых проставляется оценка от 0 до 5. Среди ответов находятся лучший и худший и они вместе с начальным промтом обучают следующую модель.

Сама по себе итеративность такого процесса — не принципиально новая идея. Эта процедура частично повторяет Iterative DPO, но в этот раз не требуется сторонней замороженной модели вознаграждения, и в этом — главная особенность.

Для эксперимента в качестве начальной модели авторы взяли Llama 2 70 и провели файнтюнинг на датасете OpenAssistant. Оттуда взяли всего 3200 примеров с хорошей человеческой оценкой. На этом же датасете (и только на нем) дообучили и модель, с которой потом сравнивали показатели. Новую модель дополнительно обучили на EFT, в котором оказалось 1630 примеров.

Сравнение проводили с помощью GPT-4 на 256 тестовых примерах и людей на 50 примерах, а еще с помощью AlpacaEval 2.0, MT-Bench и еще на 9 бенчмарках.

По оценке GPT-4 после трех итераций “саморефлексирующая” модель победила базовую в 62,5% случаев. Человеческая оценка почти такая же — 66%. После начального дообучения на IFT+EFT модель работала одинаково с базовой (той, которую обучили только на EFT) — 30.5 против 30.9%. На взгляд человека базовая модель была лучше в 46% случаев.

На AlpacaEval 2.0 третья итерация достигает 20.44%. Это меньше, чем у Mistral Medium, но больше, чем у Gemini Pro

Важно еще отметить, что качество крайне зависит от формата данных в EFT. Авторы использовали формат в котором прямо как в методичках для проверяющих ЕГЭ отмечено за что последовательно добавлять каждый балл. Также нужно написать короткое заключение, до 100 слов.

А если попробовать другие форматы, то результаты гораздо хуже. Например, если та же пятибалльная оценка выставляется не суммой баллов, а просто выбором из пяти заключений.

Возвращаясь к обещанному Цукербергом open-source AGI. Для этой статьи код пока не выложен, авторы обещают это сделать, а пока ссылаются на долгие согласования.

AI уже создает датасеты, которые хорошо учат модели, а теперь может оценивать свои же результаты лучше человека.
Или, если не лучше, то как минимум быстрее.