Новая модель от Алибаба Qwen-32B

"Сегодня мы выпускаем QwQ-32B, нашу новую модель рассуждения с всего 32 миллиардами параметров, которая конкурирует с передовыми моделями рассуждения, такими как DeepSeek-R1.
На этот раз мы исследовали рецепты масштабирования обучения с подкреплением (RL) и достигли впечатляющих результатов на основе нашей Qwen2.5-32B. Мы обнаружили, что обучение с подкреплением может непрерывно улучшать производительность, особенно в математике и программировании, и мы наблюдаем, что непрерывное масштабирование RL может помочь модели среднего размера достичь конкурентоспособной производительности по сравнению с гигантскими моделями MoE (Mixture of Experts). Пожалуйста, пообщайтесь с нашими новыми моделями и оставьте нам отзыв!"
https://x.com/Alibaba_Qwen/status/1897361654763151544