强化学习（RLVR）归档 - 每时AI

R1-V项目：将DeepSeek R1的训练方法用在视觉语言模型上

2025年2月3日23时作者 NLP工程化

R1-V项目展示了DeepSeek RRP在视觉语言模型上的效果，仅需30分钟和不到3美元的训练成本，在100个步骤内超越了72B模型的OOD测试表现。