「0污染」LLM理解基准来了!20000道题14个学科全覆盖,来自微软

MMLU-CF是微软亚洲研究院推出的一个新的多任务语言理解基准测试,旨在消除数据污染并提供更为公平、可靠的评估。该基准包含20,000道题目,涵盖14个学科领域,验证集公开透明,测试集闭源防泄露。研究人员通过去污染规则防止恶意数据泄露,并在Huggingface上开放了该数据集。

驭浪而行,产业向新:2025世界人工智能大会智能体论坛前瞻,共探AI产业变革|

世界人工智能大会期间将举办‘智能体驱动产业变革论坛’,聚焦AI智能体在金融、能源、制造等行业的落地挑战与解决方案。论坛涵盖技术前沿瞭望、企业级智能体重磅发布及产业旗舰实践分享三大版块,旨在探讨和解决当前面临的难点问题。

演讲生成黑科技,PresentAgent从文本到演讲视频

本项目提出 PresentAgent 系统,能够将长篇文档转化为带解说的演示视频。PresentAgent 通过模块化流程实现视觉和语音同步生成,并引入 PresentEval 评估框架全面考量内容、视觉与理解质量。