日期: 2025 年 4 月 24 日
如何教会AI像人类一样“慢思考”?阿里&浙大联合提出CMMCoT:多图像理解能力大升级
阿里巴巴与浙江大学联合提出CMMCoT框架,融合多模态推理链与记忆增强机制,提升复杂多图像理解任务的跨图像推理和可解释性能力。
微软开发者挑战赛圆满收官,多项大奖见证AI创新力量!
历时3个月的微软开发者挑战赛落下帷幕。1500+创新人才参赛,最终8支队伍晋级决赛。评委阵容豪华,涵盖微软及外部专家。选手们展示了AI智能体领域的创新成果,大赛揭晓了冠亚季军和6个专项大奖。
ICLR2025 打破次元壁!同济提出FaceShot,让表情包、玩具也能“开口说话”!
同济大学提出FaceShot,打破传统肖像动画局限,使非人类角色如表情包、玩具等也能’开口说话’。通过语义引导关键点匹配和坐标系建模动作变换,实现了高精度的动作迁移和身份保持。
DeepSeek-R1-Zero被“轻松复现”?10%训练步数实现数学代码双领域对齐
通过SRPO方案,快手Kwaipilot团队在处理数学与代码混合数据时实现了效率和效果的双赢。SRPO结合了两阶段训练范式和历史重采样技术,仅用10%的训练步数,在AIME24和LiveCodeBench基准测试中超越了现有模型的表现。
从搜索到解决方案:解锁火山 DeepSearch 的“三连跳” MCP 玩法
最近火山发布了多个新模型及应用服务,包括视觉推理模型Doubao-1.5-vision-pro、RTC硬件支持以及DeepSearch深度搜索复合应用服务等。火山还展示了其在旅游规划和新能源汽车上险量数据查询方面的能力,并介绍了如何使用这些服务的技术实现方式及其优势。