PaperWeekly
等到了!VLM-R1完整细节首度公开:RL的一小步,视觉语言模型推理的一大步
VLM-R1 是一个专注于视觉感知任务的强化学习模型,它通过引入格式奖励和准确率奖励机制,在Referring Expression Compression和Open-Vocabulary Object Detection两个任务上取得了显著优势。论文详细解释了其技术细节,并展示了在大规模模型中的泛化能力和潜力。
腾讯低调开源「作业终结者」:3B参数实现多模态SOTA,数学物理全通吃
腾讯开源了一个只有3.78B参数的多模态模型VLR1-3B,对比同级别模型表现优异。它在数学、物理和视觉场景中均表现出色,并能提供推理能力。
DeepSeek-R1-Zero被“轻松复现”?10%训练步数实现数学代码双领域对齐
通过SRPO方案,快手Kwaipilot团队在处理数学与代码混合数据时实现了效率和效果的双赢。SRPO结合了两阶段训练范式和历史重采样技术,仅用10%的训练步数,在AIME24和LiveCodeBench基准测试中超越了现有模型的表现。
AMD AI PC大赛重磅来袭!13万奖金池,NPU算力免费用,速来组队瓜分奖金!
2025 年 AMD AI PC 应用创新大赛开幕,以 AI PC 芯进化为主题,面向全球开发者、企业团队等开放报名。大赛旨在打造软硬件协同创新的顶级舞台,提供丰厚现金奖励和资源支持。