January 21
Time to think
Первое что стоит понимать про любой RLHF этап - это скам. Не в том смысле что две задачи МЛя, а в том смысле что: Твой ревард может легко ломатся, ревард может быть хорошим для одной задачи и ОЧЕНЬ плохим для другой.
Пример: вы построили десять мостов, написали три книжки и получили -1. Вопрос: за что вы получили -1 ревард?
Отдельный прикол: RM стимулирует модели генерировать более длинные ответы
Ну и доучилось до того что генерит в 3-4 раза БОЛЬШЕ токенов на ответ чем о1 от oai, вот вам и time inference scaling
Что сделали?
Авторы используют комбинацию из RM + rule based (на правилах)
Что не работает?
Ну понятно, потому что поле поиска большое, модели с SFT/RLHF этапом менее разнообразные, масштабируется с нюансами
Reward hacking+авторам не понравилось
In conclusion, while PRM demonstrates a good ability to rerank the top-N responses generated by the model or assist in guided search (Snell et al., 2024), its advantages are limited compared to the additional computational overhead it introduces during large-scale reinforcement learning process in our experiments.