跳至内容
每时AI

每时AI

  • 资讯
  • 国际
  • 分享
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 关于我们

GRPO

UC伯克利新作颠覆认知:LLM靠「自信爆表」学会推理?无需外部奖励超进化

下午4时 2025/05/31 作者 新智元

推理了?UC伯克利的华人团队发现,LLM居然跟人一样!靠自信来训练AI后,数学、编程性能提升惊人。

分类 资讯 标签 GRPO、 GSW8K、 Intuitor、 MATH、 在线U检验、 自置信机制 发表评论

QwenLong-L1:迈向具备长上下文推理能力的大型语言模型的强化学习方法

上午8时 2025/05/28 作者 NLP工程化

本文提出了一种强化学习框架QwenLong-L1,旨在提升大语言模型在长上下文中的泛化能力,并通过逐步扩展上下文长度、混合奖励函数等方法实现这一目标。

分类 开源 标签 DAPO、 GRPO、 QwenLong-L1、 大语言模型、 强化学习框架、 精确率与召回率 发表评论

微软副总裁X上「开课」,连更关于RL的一切,LLM从业者必读

上午11时 2025/05/26 作者 机器之心

微软副总裁 Nando de Freitas 却有自己的想法:他要在 X 上「开课」,发布一些关于人

分类 学术、 资讯 标签 GRPO、 Nando de Freitas、 强化学习、 深度学习、 目标函数、 重要性采样 发表评论

Unsloth 发布了 GRPO 的新互动教程 (ipynb notebook)

上午8时 2025/05/15 作者 NLP工程化

Unsloth 发布了GRPO的新互动教程,用户可以轻松微调Qwen3-Base并开启其思考模式,实现几乎无监督学习。

分类 开源 标签 Google Colab、 GRPO、 Qwen3-Base、 unsloth、 微信buxingtianxia21、 无监督学习 发表评论

DeepSeek-R1发布100天后:全面复盘推理大模型复现研究及未来!

下午7时 2025/05/06 作者 PaperAgent

RLMs的最新发展及其复现研究总结,强调监督微调和基于可验证奖励的强化学习方法的重要性,并讨论了数据构建、训练策略和奖励设计的关键要素。

分类 分享 标签 DeepSeek-R1、 GRPO、 KL损失、 PPO、 可验证奖励学习、 课程学习 发表评论

强化学习算法梳理:从 PPO 到 GRPO 再到 DAPO

下午2时 2025/05/05 作者 机器学习算法与自然语言处理

业研究人员。
社区的愿景
是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进

分类 学术 标签 DAPO、 GRPO、 KL约束、 Poisson、 token level、 动态采样 发表评论

DeepSeek-R2尚未问世,微软小模型捡漏称王?6000样本炼出「数学作弊器」!

上午11时 2025/05/03 作者 新智元

reasoning、Phi-4-reasoning-plus和Phi-4-mini-reasonin

分类 资讯 标签 140亿参数、 GRPO、 SFT、 大模型、 微软、 阿里云 发表评论

DeepSeek开源Prover-V2强推理模型,网友:奥数从没这么简单过

上午11时 2025/05/01 作者 机器之心

的新消息可没停下来。
前些天到处都在流传着 DeepSeek-R2 即将发布的传言,DeepSee

分类 学术、 资讯 标签 DeepSeek-Prover-V2、 GRPO、 miniF2F、 ProofNet、 中文支持、 学术界 发表评论

强化学习推理现状 — 理解 GRPO 以及从推理模型论文中获得的新见解

下午11时 2025/04/20 作者 NLP工程化

Sebastian Raschka 分享了关于强化学习推理现状的文章内容,包括理解推理模型、RLHF 基础知识、PPO 算法介绍及 GRPO 的应用等,并探讨了训练推理模型的经验和研究论文。

分类 开源 标签 DeepSeek-R1、 GRPO、 PPO、 Sebastian Raschka、 奖励建模、 强化学习 发表评论

Open R1 项目进展第三期

下午2时 2025/04/03 作者 Hugging Face

Ts 数据集
: 通过 R1 模型蒸馏生成近 10 万条高质量编程思维链样本,同时包含 C++ 和

分类 开源 标签 GRPO、 Log Softmax、 trl、 μ、 多节点部署、 生成再提速 发表评论
较早文章
页面1 页面2 … 页面4 下一页 →

2025年 AGI AI AI技术 Anthropic ChatGPT Claude DeepSeek DeepSeek-R1 DeepSeek R1 GitHub GPT-4o LLM Manus Meta OpenAI Python Sam Altman 人工智能 人形机器人 具身智能 大型语言模型 大模型 大语言模型 字节跳动 开源 强化学习 微软 扩散模型 技术创新 智能体 木易 机器学习 深度学习 清华大学 生成式AI 用户体验 百度 腾讯 自然语言处理 英伟达 谷歌 阿里云 阿里巴巴 马斯克

近期文章

  • 从打分器到思考者:RM-R1用推理重塑模型价值判断
  • SSM+扩散模型,竟造出一种全新的「视频世界模型」
  • 250美元起售,还开源,Hugging Face 发布史上最亲民人形机器人
  • 一周两破18年数学纪录!陶哲轩惊叹:AlphaEvolve带来久违「加速度」
  • 大模型推理的“左右脑”革命!华为盘古Embedded凭昇腾之力,让快慢思考合二为一

分类

  • 分享
  • 国际
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 资讯
2025 年 6 月
一 二 三 四 五 六 日
 1
2345678
9101112131415
16171819202122
23242526272829
30  
« 5 月    

归档

  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月

AI新闻 | X平台 | APK反编译 | 京ICP备2024096144号 |
© 2025 每时AI • Built with GeneratePress
 下载我们的APP,AI秒送达!  立即下载
×