爆火智能体再进化,终端成为关键词:2026年端侧AI能力至少涨3倍

联想发布超级智能体定义,包括个人、企业、城市三个方面。三大核心功能为感知与交互、认知与决策、自主与演进。联想通过AI PC等产品展示了端侧计算能力提升,并推出了天禧个人超级智能体和乐享企业超级智能体。

挑战AI数学推理极限!大规模形式化数学基准FormalMATH发布,最强模型成功率仅16%

香港中文大学等机构联合推出FormalMATH基准测试,包含5560道经过验证的数学题。尽管大语言模型在自然语言处理和代码生成领域表现优异,但在数学定理证明任务中成功率仅为16.46%。研究提出了一套三阶段过滤框架用于自动形式化和语义一致性检测,并分析了现有LLM证明器的表现,发现代数较强而微积分较弱,存在滥用自动化策略的问题。