微软&清北RPT:强化学习的风又吹到了预训练!
微软研究院、北大和清华联合提出强化预训练新范式RPT,通过RL训练提高LLMs预训练性能。该方法在OmniMATH数据集上优于现有模型,并且随着计算量增加预测准确性提升。
微软研究院、北大和清华联合提出强化预训练新范式RPT,通过RL训练提高LLMs预训练性能。该方法在OmniMATH数据集上优于现有模型,并且随着计算量增加预测准确性提升。
MLNLP社区介绍其致力于促进国内外自然语言处理领域的交流合作,Magistral通过纯强化学习训练提高解题能力,成果包括在AIME数学竞赛上的显著提升,在多种场景下的表现及未来研究方向的探索。
腾讯研究团队采用强化学习结合课程采样策略训练意图识别模型,显著提升其在未知意图上的泛化能力。该方法能有效指导模型关注更具挑战性的数据样本,并通过实验验证了GRPO算法优于传统SFT方法的性能优势。
VLM-R1 是一个专注于视觉感知任务的强化学习模型,它通过引入格式奖励和准确率奖励机制,在Referring Expression Compression和Open-Vocabulary Object Detection两个任务上取得了显著优势。论文详细解释了其技术细节,并展示了在大规模模型中的泛化能力和潜力。
小米大模型团队通过微调阿里Qwen2-Audio-7B模型,结合DeepSeek-R1的GRPO算法,在MMAU评测集上实现了64.5%的准确率,显著提升31%,接近人类专家水平。
复旦大学知识工场实验室团队基于 GRPO 算法高效复现 R1-zero 自发反思能力,项目代码简洁、依赖简单,资源消耗低。
从零实现DeepSeek R1的强化学习项目,探索GRPO算法的应用,仅用单个H100 GPU400步训练提升模型性能,完全自研且提供多脚本结构。
多位DeepSeek人才拥有国内外复合背景,他们选择回国投身中国的AI产业而非留在美国公司工作。梁文锋的公司不鼓励内部竞争和加班,并给予员工极大的自由度。DeepSeek吸引人才的方式独特且成功,其研究成果受到关注并获得了广泛关注。