强化学习
语音合成突破:F5R-TTS首次实现非自回归模型的GRPO优化,零样本克隆性能显著提升
最新研究提出F5R-TTS系统,通过概率化输出和GRPO优化方法成功将强化学习整合到非自回归TTS中,显著提升语音合成质量。
OpenAI姚顺雨:大模型下半场是产品的游戏,做研究也要有产品思维
姚顺雨指出AI发展分为上半场和下半场。上半场以模型和方法为主,而下半场的重点转向如何定义现实任务并有效评估AI的表现。他强调强化学习已能泛化,并提出新的评估规则来解决当前局限性。
浙大×小红书发布MT-R1-Zero:强化学习重塑机器翻译,7B小模型媲美GPT-4o
MT-R1-Zero首次将R1-Zero范式扩展到机器翻译领域,通过规则-度量混合奖励机制实现无需监督微调的端到端强化学习优化。该方法在多项指标上超越了现有模型。
Skywork-OR1:释放强化学习的力量,打造强大的数学和代码推理Agent
Skywork-OR1发布,7B参数量模型在AIME数学竞赛中得分69.8,性能媲美671B DeepSeek-R1,开源模型、数据和代码助力研究。