20000 归档 - 每时AI

「0污染」LLM理解基准来了！20000道题14个学科全覆盖，来自微软

2025年7月18日23时作者新智元

MMLU-CF是微软亚洲研究院推出的一个新的多任务语言理解基准测试，旨在消除数据污染并提供更为公平、可靠的评估。该基准包含20,000道题目，涵盖14个学科领域，验证集公开透明，测试集闭源防泄露。研究人员通过去污染规则防止恶意数据泄露，并在Huggingface上开放了该数据集。

2025年6月9日14时作者老刘说NLP

2025年6月9日北京晴天，文章介绍了多模态RAG实现流程、AI Baby Monitor应用、用于语法纠错的微调模型及个人财务大模型等内容。