「0污染」LLM理解基准来了!20000道题14个学科全覆盖,来自微软

MMLU-CF是微软亚洲研究院推出的一个新的多任务语言理解基准测试,旨在消除数据污染并提供更为公平、可靠的评估。该基准包含20,000道题目,涵盖14个学科领域,验证集公开透明,测试集闭源防泄露。研究人员通过去污染规则防止恶意数据泄露,并在Huggingface上开放了该数据集。

单向VLM变双向!人大斯坦福等提出MoCa框架:双向多模态编码器

中国人民大学等机构的研究者提出MoCa框架,通过双阶段方法将预训练因果VLM转化为双向多模态编码模型。该框架利用持续预训练和异构对比微调提升表示能力和泛化性能,在多种任务上优于现有模型。

重大突破!微软发布“自我进化”,帮小模型超OpenAI-o1

Microsoft亚洲研究院发布的rStar-Math通过代码增强CoT、蒙特卡洛树搜索等方法提升小模型数学推理能力,平均在AIME 2024测试中解决了53.3%的难题,并显著提升了多个数学基准测试的表现。