跳至内容
每时AI

每时AI

  • 资讯
  • 国际
  • 分享
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 关于我们

奖励函数

从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南

2025年6月22日16时 作者 机器之心

可或缺的技术之一。从大模型对齐到推理模型训练再到如今的智能体强化学习(Agentic RL),你几乎

分类 学术、 资讯 标签 AI助手、 GRPO、 Qwen3、 奖励函数、 强化学习、 目标导向 发表评论

使用DeepSeek的GRPO,7B模型只需强化学习就能拿下数独

2025年3月11日12时 作者 机器之心

数据,7B 参数模型能单纯通过强化学习学会玩数独吗?
近日,技术博主 Hrishbh Dalal 的

分类 学术、 资讯 标签 任务背景、 奖励函数、 强化学习、 数学问题求解、 数独解题、 编程问题 发表评论

AGI AI AI技术 Anthropic ChatGPT Claude Cursor DeepSeek DeepSeek-R1 GitHub GPT-4o LLM Meta OpenAI Python Sam Altman 人工智能 人形机器人 具身智能 大型语言模型 大模型 大语言模型 字节跳动 工业机器人 开源 强化学习 微软 扩散模型 技术创新 智能体 木易 机器学习 深度学习 清华大学 生成式AI 用户体验 百度 腾讯 自然语言处理 英伟达 谷歌 阿里云 阿里巴巴 马斯克 黄仁勋

分类

  • 分享
  • 国际
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 资讯
  • 阿里开源Qwen-Image,AI会写汉字了!
  • 登Science,David Baker团队提出无序区域结合蛋白设计新方法,专攻不可成药靶点
  • OpenAI 开源gpt-oss权重,Huggingface开源微调gpt-oss权重方法
  • 科研自动化的全流程智能平台AI-Researcher
  • 突发!传智元机器人联合创始人 “ 闫维新 ” 将离职

2025 年 8 月
一 二 三 四 五 六 日
 123
45678910
11121314151617
18192021222324
25262728293031
« 7 月    

归档

  • 2025 年 8 月
  • 2025 年 7 月
  • 2025 年 6 月
  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月

AI新闻 | X平台 | APK反编译 | 京ICP备2024096144号 |
© 2025 每时AI • Built with GeneratePress
 下载我们的APP,AI秒送达!  立即下载
×