强化学习归档 - 第9页共46页

推荐大模型来了？OneRec论文解读：端到端训练如何同时吃掉效果与成本

2025年6月19日23时作者机器之心

域掀起一场由大型语言模型（LLM）引领的生成式革命，它们凭借着强大的端到端学习能力、海量数据理解能力

Kimi-Dev：强大的开源编程LLM，助力软件开发任务

2025年6月18日8时作者 NLP工程化

Kimi-Dev 是一款强大的开源编程LLM，性能超越其他开源模型，在SWE-bench Verified上达到60.4%；支持本地部署和Hugging Face使用，并通过大规模强化学习优化解决方案的准确性和鲁棒性。

同一天开源新模型，一推理一编程，MiniMax和月之暗面开卷了

2025年6月17日16时作者机器之心

Max 和月之暗面各自公布了开源新成果。
其中，MiniMax 启动了「MiniMax Week」，

炸裂！MiniMax推出全球最长上下文推理模型M1：512张H800三周完成训练，成本仅54万美金

2025年6月17日11时作者 AI寒武纪

MiniMax举办开源周活动，正式发布最新推理模型MiniMax-M1，支持100万token输入与8万token输出，参数量达4560亿。通过大规模强化学习训练，仅耗资53.47万美元。该模型采用混合注意力架构和闪电注意力机制，显著提升推理效率，并在复杂任务中表现突出。

SFT+RL双管齐下：ReasonGen-R1如何破解文生图「指令不遵」难题？

2025年6月16日23时作者机器之心

近日提出的一种两阶段训练框架ReasonGen-R1结合监督微调与强化学习提升自回归图像生成模型的推理和创作能力。

MSRA清北推出强化预训练！取代传统自监督，14B模型媲美32B

2025年6月11日23时作者量子位

微软亚洲研究院联合清华大学、北京大学提出RPT预训练范式，将强化学习深度融入预训练阶段，通过生成思维链推理序列和使用前缀匹配奖励来提升模型预测准确度。

103K「硬核」题，让大模型突破数学推理瓶颈

2025年6月11日16时作者机器之心

本文介绍了一篇关于 DeepMath-103K 数据集的研究论文，该数据集旨在解决当前大语言模型在数学推理训练中的数据瓶颈问题。论文详细描述了其高难度、新颖性和纯净性的特点，并展示了在多个基准测试中的卓越性能。

视觉感知驱动的多模态推理：阿里通义提出VRAG-RL，定义下一代检索增强生成

2025年6月11日16时作者 PaperWeekly

VRAG-RL 是一种基于强化学习的视觉检索增强生成方法，通过引入多模态智能体训练，实现了视觉语言模型在检索、推理和理解复杂视觉信息方面的显著提升。

GraphRAG的优劣势及文档解析结合RL强化学习新思路Infinity Parser

2025年6月11日14时作者老刘说NLP

在2025年6月11日的文章中，探讨了《Infinity Parser》结合强化学习和文档解析数据集的构建，并介绍了《When to use GraphRAG: A Comprehensive Analysis for Graph Retrieval-Augmented Generation》，分析了GraphRAG在不同场景下的有效性。

OpenAI新模型，被曝秘密训练中！万字硬核长文直指o4核心秘密

2025年6月10日23时作者新智元

了OpenAI全新模型的秘密？据悉，新模型介于GPT-4.1和GPT-4.5之间，而下一代推理模型o

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31