跳至内容
每时AI

每时AI

  • 资讯
  • 国际
  • 分享
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 关于我们

GRPO

探索为什么要融合SFT和RL,以及应该怎么融合

2025年7月19日14时 作者 机器学习算法与自然语言处理

业研究人员。
社区的愿景
是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进

分类 学术 标签 GRPO、 Learning to Reason under Off-Policy Guidance、 Off-policy、 SRFT、 UFT、 Unifying Supervised and Reinforcement Fine-Tuning 发表评论

入选ICML 2025!哈佛医学院等推出全球首个HIE领域临床思维图谱模型,神经认知结果预测任务上性能提升15%

2025年6月23日11时 作者 HyperAI超神经

大学及 MIT-IBM 沃森实验室的跨学科团队,共同构建了一个专业级医学推理基准测试数据集,并提出了

分类 学术 标签 Azure医疗云平台、 GMAI-MMBench、 GRPO、 Med-R1、 MedDr、 MedGemma 发表评论

从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南

2025年6月22日16时 作者 机器之心

可或缺的技术之一。从大模型对齐到推理模型训练再到如今的智能体强化学习(Agentic RL),你几乎

分类 学术、 资讯 标签 AI助手、 GRPO、 Qwen3、 奖励函数、 强化学习、 目标导向 发表评论

unsloth制作了一份关于大模型强化学习的完整指南

2025年6月20日8时 作者 NLP工程化

Unsloth发布了关于大模型强化学习的完整指南,涵盖目标、关键作用及在AI代理中的应用等内容,并提供了GRPO、RLHF、DPO和奖励函数的相关信息。

分类 开源 标签 Claude 4、 DPO、 GRPO、 RLHF、 强化学习、 智能AI代理 发表评论

理解GRPO,超越GRPO!GVPO算法详解

2025年6月15日14时 作者 机器学习算法与自然语言处理

MLNLP社区致力于推动国内外自然语言处理和机器学习领域内的交流合作。文章提出GVPO算法,通过KL约束的奖励最大化解析解解决了GRPO中的训练不稳定问题,并支持多样化的采样分布,具有较好的稳定性和表现。

分类 学术 标签 DPO、 GRPO、 GVPO、 KL约束、 MSE损失、 稳定性 发表评论

UC伯克利新作颠覆认知:LLM靠「自信爆表」学会推理?无需外部奖励超进化

2025年5月31日16时 作者 新智元

推理了?UC伯克利的华人团队发现,LLM居然跟人一样!靠自信来训练AI后,数学、编程性能提升惊人。

分类 资讯 标签 GRPO、 GSW8K、 Intuitor、 MATH、 在线U检验、 自置信机制 发表评论

QwenLong-L1:迈向具备长上下文推理能力的大型语言模型的强化学习方法

2025年5月28日8时 作者 NLP工程化

本文提出了一种强化学习框架QwenLong-L1,旨在提升大语言模型在长上下文中的泛化能力,并通过逐步扩展上下文长度、混合奖励函数等方法实现这一目标。

分类 开源 标签 DAPO、 GRPO、 QwenLong-L1、 大语言模型、 强化学习框架、 精确率与召回率 发表评论

微软副总裁X上「开课」,连更关于RL的一切,LLM从业者必读

2025年5月26日11时 作者 机器之心

微软副总裁 Nando de Freitas 却有自己的想法:他要在 X 上「开课」,发布一些关于人

分类 学术、 资讯 标签 GRPO、 Nando de Freitas、 强化学习、 深度学习、 目标函数、 重要性采样 发表评论

Unsloth 发布了 GRPO 的新互动教程 (ipynb notebook)

2025年5月15日8时 作者 NLP工程化

Unsloth 发布了GRPO的新互动教程,用户可以轻松微调Qwen3-Base并开启其思考模式,实现几乎无监督学习。

分类 开源 标签 Google Colab、 GRPO、 Qwen3-Base、 unsloth、 微信buxingtianxia21、 无监督学习 发表评论

DeepSeek-R1发布100天后:全面复盘推理大模型复现研究及未来!

2025年5月6日19时 作者 PaperAgent

RLMs的最新发展及其复现研究总结,强调监督微调和基于可验证奖励的强化学习方法的重要性,并讨论了数据构建、训练策略和奖励设计的关键要素。

分类 分享 标签 DeepSeek-R1、 GRPO、 KL损失、 PPO、 可验证奖励学习、 课程学习 发表评论
较早文章
页面1 页面2 … 页面4 下一页 →

AGI AI AI技术 Anthropic ChatGPT Claude DeepSeek DeepSeek-R1 DeepSeek R1 GitHub GPT-4o LLM Meta OpenAI Python Sam Altman 人工智能 人形机器人 具身智能 大型语言模型 大模型 大语言模型 字节跳动 工业机器人 开源 强化学习 微软 扩散模型 技术创新 智能体 木易 机器学习 深度学习 清华大学 生成式AI 用户体验 百度 腾讯 自然语言处理 英伟达 谷歌 阿里云 阿里巴巴 马斯克 黄仁勋

分类

  • 分享
  • 国际
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 资讯
  • 刚刚,OpenAI神秘新模型斩获IMO 2025金牌!攻克奥数巅峰,硅谷沸腾
  • 「AI重大飞跃」OpenAI官宣:内部实验模型在IMO 2025中取得金牌,GPT-5即将发布
  • 我给GPT Agent和Manus安排了场像素级对比,OpenAI不该把PPT当卖点
  • 借助CoT监管AI?OpenAI、谷歌、Anthropic等罕见联合发论文:AI系统安全的新机遇!
  • Peekaboo:macOS上的闪电般快速截图工具,支持AI视觉分析

2025 年 7 月
一 二 三 四 五 六 日
 123456
78910111213
14151617181920
21222324252627
28293031  
« 6 月    

归档

  • 2025 年 7 月
  • 2025 年 6 月
  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月

AI新闻 | X平台 | APK反编译 | 京ICP备2024096144号 |
© 2025 每时AI • Built with GeneratePress
 下载我们的APP,AI秒送达!  立即下载
×