ICLR 2025 Oral|差分注意力机制引领变革,DIFF Transformer攻克长序列建模难题
建模能力为语言理解与生成带来了前所未有的突破。
然而,随着模型规模的不断扩大和应用场景的日益复杂,传
建模能力为语言理解与生成带来了前所未有的突破。
然而,随着模型规模的不断扩大和应用场景的日益复杂,传
谷歌内部分享揭秘Gemini预训练背后逻辑与挑战,提出优化模型大小、数据量及推理效率的新方法。强调硬件感知优化、蒸馏技术应用以及引入更多维度的低成本研究机遇。
北大联合人工智能研究院等推出全新物理评测基准PHYBench,包含500道高质量物理题目,旨在评估大模型在物理感知与推理方面的表现,并通过创新的EED评分机制揭示前沿模型与人类专家之间的差距。
上周MCP热度极高,纳米发布基于MCP的Agents服务。工具箱包括十几个自研工具和近百第三方工具,覆盖多个领域。展示了深度研究智能体和MCP万能工具箱功能,并介绍了Agent自定义能力。
Adobe 发布Firefly AI平台新版本,新增翻译音频、视频功能及背景音乐生成能力,提升创意工作效率。支持多种语言翻译、声音与视频同步调整,并提供图像和视频生成模型,增强内容创作灵活性。
清华大学计算机系郑凯文与德州大学奥斯汀分校何冠德合作的论文提出扩散桥隐式模型(DBIM),通过引入方差控制参数ρ,显著提升了扩散桥模型(DDBM)在图像翻译和修复任务上的生成质量。