T-GRPO训练算法归档 - 每时AI

视频推理的R1时刻！港中文、清华推出首个Video-R1，7B模型竟超GPT-4o?

2025年4月9日16时作者 PaperWeekly

港中文联合清华团队发布首个将强化学习范式应用于视频推理的模型Video-R1，该模型通过引入时序建模和混合训练机制，在权威测试中击败了GPT-4o。