强化学习归档 - 第20页共46页 - 每时AI

等到了！VLM-R1完整细节首度公开：RL的一小步，视觉语言模型推理的一大步

2025年4月25日16时作者 PaperWeekly

VLM-R1 是一个专注于视觉感知任务的强化学习模型，它通过引入格式奖励和准确率奖励机制，在Referring Expression Compression和Open-Vocabulary Object Detection两个任务上取得了显著优势。论文详细解释了其技术细节，并展示了在大规模模型中的泛化能力和潜力。

DeepSeek-R1-Zero被“轻松复现”？10%训练步数实现数学代码双领域对齐

2025年4月24日23时作者 PaperWeekly

通过SRPO方案，快手Kwaipilot团队在处理数学与代码混合数据时实现了效率和效果的双赢。SRPO结合了两阶段训练范式和历史重采样技术，仅用10%的训练步数，在AIME24和LiveCodeBench基准测试中超越了现有模型的表现。

无需数据标注！测试时强化学习，模型数学能力暴增清华&上海AI Lab

2025年4月24日16时作者量子位

清华和上海AI Lab团队通过测试时强化学习方法，提升模型数学能力159%，在多个数据集上表现显著。

被《经验时代》刷屏之后，剑桥博士长文讲述RL破局之路

2025年4月24日16时作者机器之心

归来的姿态在 LLM 的后训练时代证明了其巨大价值，Sutton 和 Barto 拿了图灵奖，Dav

Adam获时间检验奖！清华揭示保辛动力学本质，提出全新RAD优化器

2025年4月23日16时作者新智元

清华大学团队提出RAD优化器，该优化器通过神经网络与共形哈密顿系统的对偶性揭示了Adam的优化动力学机理，并提出了新的Relativistic Adaptive Gradient Descent (RAD)优化算法，实验表明其在多种强化学习任务中表现优于Adam。

DeepMind首席科学家David Silver:AI的未来，先要放弃人类知识数据（访谈实录）

2025年4月23日14时作者 AI先锋官

he Era of Experience》，提出人工智能的发展正从“人类数据时代”（Era of H

首个开源无限时长AI电影生成模型，未来AI生成电影就像生成小说一样简单。

2025年4月22日23时作者开源AI项目落地

SkyReels V2 是一款基于 Diffusion Forcing 框架的开源无限时长电影生成模型，支持故事生成、图生视频及镜头导演等功能。它已在电商等多领域具备实际应用价值。

深受好评的教程《强化学习的数学原理》

2025年4月22日8时作者 NLP工程化

《强化学习的数学原理》由西湖大学赵世钰老师授课，GitHub超过8000星，包含视频、电子书及配套资源。