MT-R1-Zero 归档

浙大×小红书发布MT-R1-Zero：强化学习重塑机器翻译，7B小模型媲美GPT-4o

2025年4月17日16时作者 PaperWeekly

MT-R1-Zero首次将R1-Zero范式扩展到机器翻译领域，通过规则-度量混合奖励机制实现无需监督微调的端到端强化学习优化。该方法在多项指标上超越了现有模型。