多模态奖励模型归档

RL训练总崩溃？R1-Reward稳定解锁奖励模型Long-Cot推理能力

2025年5月9日16时作者 PaperWeekly

可以提供稳定的 reward，评估阶段可以选择更好的 sample 结果，甚至单独作为 evalua

2025年5月8日16时作者量子位

态大语言模型（MLLMs）的表现中起着至关重要的作用：
在训练阶段，它可以提供稳定的reward；