7 月 2025 - 第80页共230页

「0污染」LLM理解基准来了！20000道题14个学科全覆盖，来自微软

2025年7月18日23时作者新智元

MMLU-CF是微软亚洲研究院推出的一个新的多任务语言理解基准测试，旨在消除数据污染并提供更为公平、可靠的评估。该基准包含20,000道题目，涵盖14个学科领域，验证集公开透明，测试集闭源防泄露。研究人员通过去污染规则防止恶意数据泄露，并在Huggingface上开放了该数据集。

2025年7月18日23时作者智东西

日凌晨，OpenAI正式推出了ChatGPT Agent，一个整合了
网页交互、深度检索和代码能力

2025年7月18日23时作者甲子光年

世界人工智能大会期间将举办‘智能体驱动产业变革论坛’，聚焦AI智能体在金融、能源、制造等行业的落地挑战与解决方案。论坛涵盖技术前沿瞭望、企业级智能体重磅发布及产业旗舰实践分享三大版块，旨在探讨和解决当前面临的难点问题。

2025年7月18日23时作者新智元

Meta挖走苹果AI专家，扎克伯格誓补人才短板。庞若鸣旧将Mark Lee和Tom Gunter加盟Meta，助力Meta反击OpenAI等竞争对手。

2025年7月18日23时作者极市干货

术“low 不 low”，以业务目标为锚，用最小成本、最稳方案把活干漂亮，并持续扩展边界、提前布局未

2025年7月18日23时作者新智元

超级智能，就是与虎为伴，稍有不慎，人类万劫不复！
在柏林举行的Gitex Europe开幕日，「AI

2025年7月18日23时作者极市干货

语义分割框架 QuadMix，通过四向混合机制和光流引导的时空聚合，在四大基准上全面刷新 SOTA，

2025年7月18日23时作者机器之心

本项目提出 PresentAgent 系统，能够将长篇文档转化为带解说的演示视频。PresentAgent 通过模块化流程实现视觉和语音同步生成，并引入 PresentEval 评估框架全面考量内容、视觉与理解质量。

2025年7月18日23时作者机器之心

苹果发布2025年Apple Intelligence基模型技术报告，介绍了两种多语言、多模态基础模型，并展示了其在提升用户价值的同时实现功能扩展与质量优化方面的成果。

2025年7月18日23时作者 PaperWeekly

的数字人与机器人需要精准解译多模态交互信息，深度挖掘人类内在情感状态，从而实现更具真实感与自然性的人