学术
LLM 自回归+Diffusion Loss?Orthus:仅需72小时训练时间,即可高精度多模态生成
型
Orthus,可同时生成离散文本和连续图像特征。其通过特定的扩散头和语言模型头分别处理图像和文本
逐个token太慢!大模型原生并行出token,CMU、英伟达新作Multiverse
CMU Infini-Al-Lab 研究人员提出 Multiverse,一种支持原生并行生成的新型生成模型框架,显著提高大语言模型的推理效率和速度。
突破多智能体系统边界,开源方案OWL超越OpenAI Deep Research,获17k star
港大、camel-ai 等机构提出Workforce多智能体框架及OWL训练方法,在GAIA基准测试上取得69.70%准确率,超越多家商业系统和开源方案。该研究将系统分解为规划器、协调器和工作节点三个核心组件,通过解耦设计实现跨领域迁移,并采用两阶段优化训练策略提升规划器能力。
欧洲团队开源「地球AI大脑」!EarthMind突破遥感多模态统一理解壁垒
研究者们开发出EarthMind框架,用于理解复杂的遥感数据。它能够处理图像级、区域级和像素级别的感知与推理任务,并发布开源评测基准EarthMind-Bench来评估模型的性能。
首个全面梳理语音大模型发展脉络的权威综述,入选ACL 2025主会
本文介绍了一篇被ACL 2025主会议接收的语音语言模型综述论文,该文由香港中文大学团队撰写。文章探讨了当前语音大模型的发展及其在自然对话、实时交互等方面的应用前景,并提出了未来研究的重点和挑战。