Time to think

Первое что стоит понимать про любой RLHF этап - это скам. Не в том смысле что две задачи МЛя, а в том смысле что: Твой ревард может легко ломатся, ревард может быть хорошим для одной задачи и ОЧЕНЬ плохим для другой.

Пример: вы построили десять мостов, написали три книжки и получили -1. Вопрос: за что вы получили -1 ревард?

Отдельный прикол: RM стимулирует модели генерировать более длинные ответы

Ну и доучилось до того что генерит в 3-4 раза БОЛЬШЕ токенов на ответ чем о1 от oai, ~~вот вам и time inference scaling~~

Что сделали?

Авторы используют комбинацию из RM + rule based (на правилах)

Что не работает?

MCTS

Ну понятно, потому что поле поиска большое, модели с SFT/RLHF этапом менее разнообразные, масштабируется с нюансами

PRM/BON

Reward hacking+авторам не понравилось

Буквально цитата;

In conclusion, while PRM demonstrates a good ability to rerank the top-N responses generated by the model or assist in guided search (Snell et al., 2024), its advantages are limited compared to the additional computational overhead it introduces during large-scale reinforcement learning process in our experiments.