RLAIF - lm учит lm

В околонаучных кругах давно ходит легенда примрено следующего содержания: AGI может обучить только сам себя через длинный loop внутри которого он будет пинать сам себя. Обычно из этого рождаются шизовые посты про попугаев или не менее шизовые статьи в РИНЦ.

где то в сан франциско в офисе Athantropic

Модель вознаграждения в Zeroshot получает инструкцию вида:

Answer yes or no and only yes or no.

=== Begin story ===

{text}

=== End story ===

Does this story make the reader feel like crying?""",

"""Answer yes or no and only yes or no.

=== Begin story ===

{text}

=== End story ===

Is this story well-written and coherent?

Ну и так далее по образцу,

Затем берем логиты для первого токена ответа и формирует логит бинарного классификатора как log(p(да) + p(ни одно из) / 2) - log(p(нет) + p(ни одно из) / 2).

В качестве вознаграждения она использует log(sigmoid(logit)) (логарифм вероятности класса "да"). Для обучения настройки модели с целью одновременного удовлетворения нескольких критериев естественного языка она использует взвешенные "мягкие конъюнкции" нескольких бинарных классификаторов.

В чем плюс спросит не прошаренный читатель?

Все очень просто - у нас RM которую не надо дополнительно учить на CODE/HELPFULNESS/HARMLESS - мы можем брать достаточно умную LLM и она будет пинать сама себя! Тем самым мы используем не маленький сет разметки с людей а ОГРОМНЫЕ знания LLM которая она приобрела во время претрена! В этом плане круче только DPO(но об этом в другой раз)

Ну и выходит что RLAIF на голову выше RLHF, а с COT докидывает еще сильнее

Если вы вдруг хотите быть MLE из топовых перцентилей то стоит изучить вот это это прям отличная имплементация RLAIF from scratch