强化学习归档 - 第22页共46页

RSS 2025｜ConRFT: 真实环境下基于强化学习的VLA模型微调方法

2025年4月18日16时作者机器之心

学习、机器人学习、具身智能。
视觉-语言-动作模型在真实世界的机器人操作任务中显示出巨大的潜力，但是

2025年4月17日23时作者量子位

姚顺雨指出AI发展分为上半场和下半场。上半场以模型和方法为主，而下半场的重点转向如何定义现实任务并有效评估AI的表现。他强调强化学习已能泛化，并提出新的评估规则来解决当前局限性。

MLNLP社区致力于促进国内外机器学习与自然语言处理的交流合作与发展，字节AI Lab即将并入Seed团队。

2025年4月17日16时作者 PaperWeekly

MT-R1-Zero首次将R1-Zero范式扩展到机器翻译领域，通过规则-度量混合奖励机制实现无需监督微调的端到端强化学习优化。该方法在多项指标上超越了现有模型。

2025年4月15日8时作者 NLP工程化

Skywork-OR1发布，7B参数量模型在AIME数学竞赛中得分69.8，性能媲美671B DeepSeek-R1，开源模型、数据和代码助力研究。

2025年4月14日23时作者新智元

表示，通过AI，DeepMind团队在一年里，完成了10亿年的博士研究时间！10亿年的科学探索被压缩

2025年4月14日16时作者新智元

到「缺失前提」（MiP）的问题时，这些模型往往表现失常：回答长度激增、计算资源浪费。本文基于马里兰大

2025年4月14日16时作者机器之心

化学习）、异常检测。在TAI、TASE、ICCV等期刊和顶会发表论文。
近年来，随着大型语言模型（L

2025年4月14日11时作者机器之心

了突飞猛进的进展。
在探索的过程中，一个核心的议题是：对于模型推理性能的提升来说，什么有效？什么无效

2025年4月13日23时作者极市干货

uanlan.zhihu.com/p/29618155786
编辑丨极市平台
极市导读
实验表明
，