如何教会AI像人类一样“慢思考”?阿里&浙大联合提出CMMCoT:多图像理解能力大升级
阿里巴巴与浙江大学联合提出CMMCoT框架,融合多模态推理链与记忆增强机制,提升复杂多图像理解任务的跨图像推理和可解释性能力。
阿里巴巴与浙江大学联合提出CMMCoT框架,融合多模态推理链与记忆增强机制,提升复杂多图像理解任务的跨图像推理和可解释性能力。
同济大学提出FaceShot,打破传统肖像动画局限,使非人类角色如表情包、玩具等也能’开口说话’。通过语义引导关键点匹配和坐标系建模动作变换,实现了高精度的动作迁移和身份保持。
通过SRPO方案,快手Kwaipilot团队在处理数学与代码混合数据时实现了效率和效果的双赢。SRPO结合了两阶段训练范式和历史重采样技术,仅用10%的训练步数,在AIME24和LiveCodeBench基准测试中超越了现有模型的表现。
研究团队提出ManipTrans方法,通过两阶段迁移学习实现从人类手到机械灵巧手的操作技能转移。该方法利用通用轨迹模仿器预训练模型模仿人类手部动作,并引入残差学习模块对动作进行精细调整。同时发布DexManipNet大规模数据集用于验证。
MLNLP社区致力于促进国内外机器学习与自然语言处理的交流合作。论文介绍了一种无需标注数据的新方法TTRL,展示了其在数学推理任务上的显著提升效果。
MLNLP社区是国内外知名的机器学习与自然语言处理社区。Google发布了提示词工程白皮书,涵盖配置参数、技巧及最佳实践等内容。作者使用Coze搭建了Google提示词助手小工具,可帮助用户掌握写高质量提示词的技巧,并提供相关术语介绍和改写示例。