浙大×小红书发布MT-R1-Zero:强化学习重塑机器翻译,7B小模型媲美GPT-4o


目前,大模型推理领域的强化学习(如R1-Zero)主要面向数学和代码等任务,将其应用于开放式自然语言生成任务(如,机器翻译),面临着奖励设计困难、推理能力诱导不确定、泛化能力待验证等诸多未知的挑战。


针对这些难题,我们提出了 MT-R1-Zero,首次将 R1-Zero 范式成功扩展到机器翻译领域的实现。该方法无需监督微调或依赖思维链(CoT)等冷启动数据,仅通过对最终翻译结果度量反馈,进行端到端强化学习优化。


论文题目:

MT-R1-Zero: Advancing LLM-based Machine Translation via R1-Zero-like Reinforcement Learning

论文链接:

https://arxiv.org/abs/2504.10160

GitHub仓库:

https://github.com/fzp0424/MT-R1-Zero

研究团队:

浙江大学刘佐珠/吴健课题组、小红书NLP团队



▲ Figure 1: MT-R1-Zero (Mix) 与主流模型在WMT24 EN-ZH任务上的性能对比 (平均分 vs 模型大小)

核心方法

规则-度量混合奖励(Rule-Metric Mixed Reward)在机器翻译中应用 R1-Zero 的核心挑战在于评估的不确定性和输出的灵活性。我们创新性地提出了规则-度量混合奖励机制(Rule-Metric Mixed Reward): 


1. 格式奖励(Format Reward):采用严格的格式检查,强制模型生成包含 <think> (思考过程) 和 <translate> (翻译结果) 标签的结构化输出,这保证了推理过程的可观察性。格式错误将受到固定惩罚,激励模型优先学习正确格式。


度量奖励(Metric Reward):一旦格式正确,则引入连续的翻译质量度量分数作为翻译质量奖励信号。我们探索了三种度量策略: 


1. Reward-Lex(词汇优先):使用基于 N-gram 匹配的 BLEU 度量作为奖励,侧重词汇准确性。 


2. Reward-Sem(语义优先):使用基于深度学习的语义感知模型 COMETKiwi-23 作为奖励,侧重语义保真度。 


3. Reward-Mix(混合均衡):结合 Reward-Lex 与 Reward-Sem,旨在同时优化词汇和语义两个维度,寻求最佳平衡。



实验结果

7B 模型媲美闭源 SOTA:MT-R1-Zero-7B-Mix 在综合三大指标(BLEU, COMETKiwi, XCOMET)的平均分上达到 62.25,性能与顶级闭源模型 GPT-4o (61.86) 和 Claude-3.5-Sonnet (62.42) 旗鼓相当,展示了强大的综合翻译能力。


语义指标达到 SOTA:MT-R1-Zero-7B-Sem 专注于语义优化,在 COMETKiwi (72.07) 和 XCOMET (79.37) 上取得最佳分数,显著超越了包括 Claude-3.5 在内的所有基准模型。


小模型超越大模型:MT-R1-Zero-3B-Mix 的平均分 (57.81) 显著超越了同尺寸基线模型 TowerInstruct-7B-v0.2 (56.55)。MT-R1-Zero-3B-Sem 在 COMETKiwi (69.75) 上也超越了 远大于它的 LLaMA-3.1-70B (68.05)


强大的泛化能力:在 OOD(分布外)测试中,仅在英汉数据上训练的 MT-R1-Zero-7B 模型,在日英、德英、德汉等任务上表现出优异的零样本泛化能力,XCOMET 分数显著优于同尺寸基线模型。



关键发现与洞见

奖励设置至关重要:奖励度量的选择(Lex, Sem, Mix)直接决定了模型的优化侧重和最终的翻译风格(词汇精准 vs. 语义流畅)。



推理长度先降后升:训练过程中,模型的回复长度通常先快速下降(学习格式和效率),然后随着思考过程的复杂化而缓慢上升,同时翻译质量持续提升。



涌现的推理模式与语言自适应:模型在训练中自主产生了多样的推理模式,从结构化规划到更口语化的步骤。更令人惊讶的是,模型进行内部推理的“思考语言”会动态地自适应到目标翻译语言,即使从未直接训练过该翻译方向。


模型架构的适应性差异:不同LLM架构对MT-R1-Zero范式的适应性差异显著。Qwen系列模型展现出最佳的兼容性,能更好地学习格式并生成连贯推理。相比之下,LLaMA和Tower (Translation-specific) 模型则面临更大挑战,并倾向于通过生成空洞内容来“欺骗”格式奖励 (format hacking)。



开放与展望

MT-R1-Zero 证明了,即使在评估复杂、输出灵活的机器翻译任务上,纯粹的、基于度量的强化学习也是一条很有潜力的技术路径,希望这项工作能启发更多将RL应用于复杂自然语言生成任务的研究。



(文:PaperWeekly)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往