面对无解问题大模型竟会崩溃?港中文&华为联合提出首个大模型推理可靠性评估基准
本文提出首个大模型推理任务可靠性基准ReliableMath,揭示现有模型在处理无法解问题时的缺陷,并设计了用于评估可靠性的方法和数据集。通过实验分析发现,使用指令性提示可以显著提高模型对不可解问题的回答准确性及可靠性,但小模型仍存在提升空间。
本文提出首个大模型推理任务可靠性基准ReliableMath,揭示现有模型在处理无法解问题时的缺陷,并设计了用于评估可靠性的方法和数据集。通过实验分析发现,使用指令性提示可以显著提高模型对不可解问题的回答准确性及可靠性,但小模型仍存在提升空间。
Mira Murati 的创业公司 Thinking Machines Lab 成功募集了 20 亿美元的种子轮融资,成为硅谷历史上规模最大的种子轮融资之一。该公司将构建一个包含顶尖人才团队和海量算力的「共生体」。
AI 领域持续快速发展,ACL 2025 将于7月在奥地利维也纳召开。机器之心等机构联合发起 ‘云帆・ACL 2025 AI Talent Meetup’,邀请参与者围绕前沿技术与人才交流展开讨论。
香港科技大学联合Snap Research提出ThinkDiff方法,仅需少量图文对和数小时训练让扩散模型具备多模态推理与生成能力。
Concordia 是一个由 Google DeepMind 和多伦多大学提出的新软件库,旨在为多角色生成式 AI 提供一个统一框架。它借鉴了现代游戏引擎的实体-组件架构理念,允许设计师自由组合组件来创建和测试复杂场景。
Meta 挖角 OpenAI 著名研究员 Jason Wei 和 Hyung Won Chung,两人将加入 Meta。Jason Wei 是 CoT 论文的第一作者,Hyung Won Chung 也是 o1 的核心贡献者之一。
MIRIX 是首个多模态、多智能体 AI 记忆系统,能在保证一致性和高效检索的同时处理多样化的输入数据。相比 RAG 和其他内存系统,MIRIX 在存储占用和准确率方面均有显著优势,在多项任务中均表现出色。