学术归档 - 第121页共283页

过程奖励模型也可以测试时扩展？清华、上海AI Lab 23K数据让1.5B小模型逆袭GPT-4o

2025年4月14日16时作者机器之心

清华大学刘润泽等人提出生成式过程奖励模型GenPRM，通过思维链推理和代码验证增强大语言模型的推理能力。仅23K训练样本就取得了优异性能，展示了测试时扩展在提升小模型表现上的潜力。

2025年4月14日16时作者机器之心

化学习）、异常检测。在TAI、TASE、ICCV等期刊和顶会发表论文。
近年来，随着大型语言模型（L

2025年4月14日16时作者 PaperWeekly

指标。
近日，LLM360 推出了
MegaMath：全球目前最大的开源数学推理预训练数据集
，共计

2025年4月14日16时作者机器之心

a 发布了一条推文，解读了一篇来自 Wand AI 的强化学习研究，其中分析了推理模型生成较长响应的

2025年4月14日16时作者 PaperWeekly

的工作。本研究针对视觉语言模型提示学习中的带噪标签问题，提出了一种新的
鲁棒提示学习方法 NLPro

业研究人员。
社区的愿景
是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进

业研究人员。
社区的愿景
是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进

2025年4月14日11时作者机器之心

本文提出Nabla-GFlowNet，一种基于生成流网络的高效扩散模型微调方法，能够在保持多样性的同时加快收敛速度。

2025年4月14日11时作者机器之心

我们知道，如今各大科技公司纷纷发布百亿、千亿级模型。但这些大部分模型训练主要依赖英伟达的 GPU。

2025年4月14日11时作者机器之心

产明星创业公司，一口气开源八大项目
》中，我们曾介绍到，国内专注于构建通用 3D 大模型的创业公司