RLAIF - lm учит lm
В околонаучных кругах давно ходит легенда примрено следующего содержания: AGI может обучить только сам себя через длинный loop внутри которого он будет пинать сам себя. Обычно из этого рождаются шизовые посты про попугаев или не менее шизовые статьи в РИНЦ.
Модель вознаграждения в Zeroshot получает инструкцию вида:
Answer yes or no and only yes or no.
=== Begin story ===
{text}
=== End story ===
Does this story make the reader feel like crying?""",
"""Answer yes or no and only yes or no.
=== Begin story ===
{text}
=== End story ===
Is this story well-written and coherent?
Затем берем логиты для первого токена ответа и формирует логит бинарного классификатора как log(p(да) + p(ни одно из) / 2) - log(p(нет) + p(ни одно из) / 2).
В качестве вознаграждения она использует log(sigmoid(logit)) (логарифм вероятности класса "да"). Для обучения настройки модели с целью одновременного удовлетворения нескольких критериев естественного языка она использует взвешенные "мягкие конъюнкции" нескольких бинарных классификаторов.
В чем плюс спросит не прошаренный читатель?
Все очень просто - у нас RM которую не надо дополнительно учить на CODE/HELPFULNESS/HARMLESS - мы можем брать достаточно умную LLM и она будет пинать сама себя! Тем самым мы используем не маленький сет разметки с людей а ОГРОМНЫЕ знания LLM которая она приобрела во время претрена! В этом плане круче только DPO(но об этом в другой раз)
Ну и выходит что RLAIF на голову выше RLHF, а с COT докидывает еще сильнее
Если вы вдруг хотите быть MLE из топовых перцентилей то стоит изучить вот это это прям отличная имплементация RLAIF from scratch