等到了!VLM-R1完整细节首度公开:RL的一小步,视觉语言模型推理的一大步

VLM-R1 是一个专注于视觉感知任务的强化学习模型,它通过引入格式奖励和准确率奖励机制,在Referring Expression Compression和Open-Vocabulary Object Detection两个任务上取得了显著优势。论文详细解释了其技术细节,并展示了在大规模模型中的泛化能力和潜力。

DeepSeek-R1-Zero被“轻松复现”?10%训练步数实现数学代码双领域对齐

通过SRPO方案,快手Kwaipilot团队在处理数学与代码混合数据时实现了效率和效果的双赢。SRPO结合了两阶段训练范式和历史重采样技术,仅用10%的训练步数,在AIME24和LiveCodeBench基准测试中超越了现有模型的表现。

Adam获时间检验奖!清华揭示保辛动力学本质,提出全新RAD优化器

清华大学团队提出RAD优化器,该优化器通过神经网络与共形哈密顿系统的对偶性揭示了Adam的优化动力学机理,并提出了新的Relativistic Adaptive Gradient Descent (RAD)优化算法,实验表明其在多种强化学习任务中表现优于Adam。

首个开源无限时长AI电影生成模型,未来AI生成电影就像生成小说一样简单。

SkyReels V2 是一款基于 Diffusion Forcing 框架的开源无限时长电影生成模型,支持故事生成、图生视频及镜头导演等功能。它已在电商等多领域具备实际应用价值。