跳至内容
每时AI

每时AI

  • 资讯
  • 国际
  • 分享
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 关于我们

GRPO

开源复现DeepSeek R1的文本到图谱抽取训练open-r1-text2graph

2025年2月10日23时 作者 GitHubStore

该项目基于Hugging Face Open-R1和trl构建,并重现了DeepSeek R1训练方案。通过合成数据生成、监督训练和强化学习(使用GRPO策略优化)等步骤,旨在提高模型进行文本到图信息提取的能力。

分类 开源 标签 Alibaba Cloud、 GRPO、 Ihor、 强化学习、 文本到图信息提取、 监督学习 发表评论

7G显存,训练自己的DeepSeek-R1,GRPO资源暴降80%

2025年2月10日19时 作者 PaperAgent

Unsloth AI 提供了 GRPO 训练算法,使用户能够在仅 7GB VRAM 上重现 DeepSeek R1-Zero 的‘顿悟时刻’,相比传统方法减少约80%的 VRAM 使用量。

分类 分享 标签 1.5B、 12小时、 80%、 GRPO、 Unsloth AI、 强化学习 发表评论

DeepSeek GRPO 技术揭秘:Unsloth 助力 7GB 显存体验“顿悟时刻”

2025年2月8日12时 作者 AI工程化

DeepSeek R1 模型利用 GRPO 算法实现自主学习能力,仅需 7GB 显存即可训练出具备推理能力的模型,大幅降低训练门槛和成本。

分类 分享 标签 ChatGPT、 DeepSeek、 GRPO、 R1、 unsloth、 强化学习 发表评论

DeepSeek用的GRPO占用大量内存?有人给出了些破解方法

2025年2月7日16时 作者 机器之心

版能训练哪种大模型?本文为那些 GPU 资源有限时使用 GRPO 训练的开发者提供了宝贵的指导。
自

分类 学术、 资讯 标签 gradient_accumulation_steps、 GRPO、 LORA、 max_completion_length、 max_prompt_length、 Num Generations 发表评论

DeepSeek R1 Zero中文复现教程来了!

2025年2月7日14时 作者 Datawhale

pseek/Datawhale-R1(https://github.com/datawhalechi

分类 分享 标签 GRPO、 Qwen 2.5、 共享平台、 数学模型、 数据支持、 格式奖励 发表评论

TinyZero:首个DeepSeek R1-Zero超低成本复现,不到30刀!

2025年2月4日14时 作者 PaperAgent

DeepSeek R1-Zero无需人类标注即可实现准确推理,通过强化学习自主发展自我验证和搜索能力。TinyZero展示了其在CountDown游戏中的复现成果,成本不到30美元。

分类 分享 标签 DeepSeek R1-Zero、 GRPO、 Mike Knoop、 PPO、 TinyZero、 强化学习 2 条评论

重现Deepseek R1 「Aha Moment」的完整教程来了!

2025年1月31日23时 作者 AGI Hunt

DeepSeek r1 模型惊艳亮相后,其
创新及模型实力获得了众多称赞和好评
,但同时也因一些数据

分类 分享 标签 DeepSeekMath、 GRPO、 R1、 典型数字、 准确性、 数学推理 发表评论

DeepSeek R1 训练方法解析

2025年1月21日23时 作者 AGI Hunt

DeepSeek AI 推出 DeepSeek-R1 模型,引入群体相对策略优化(GRPO)和多阶段训练方法。通过强化学习提升大语言模型推理能力,并在监督微调和拒绝采样后形成最终模型。

分类 分享 标签 71.0%、 DeepSeek-R1、 GRPO、 OpenAI-o1、 pass@1、 强化学习 1 条评论

RLHF 常见的思维误区

2025年1月13日23时 作者 极市干货

↑ 点击
蓝字
关注极市平台
作者丨ybq
来源丨NLP工作站
编辑丨极市平台
极市导读
本文探讨了

分类 学术 标签 GRPO、 OOD问题、 RLHF、 Verifier、 奖励模型、 扩散模型 发表评论
较新文章
← 上一页 页面1 … 页面3 页面4

AGI AI AI技术 Anthropic ChatGPT Claude Cursor DeepSeek DeepSeek-R1 GitHub GPT-4o LLM Meta OpenAI Python Sam Altman 人工智能 人形机器人 具身智能 大型语言模型 大模型 大语言模型 字节跳动 工业机器人 开源 强化学习 微软 扩散模型 技术创新 智能体 木易 机器学习 深度学习 清华大学 生成式AI 用户体验 百度 腾讯 自然语言处理 英伟达 谷歌 阿里云 阿里巴巴 马斯克 黄仁勋

分类

  • 分享
  • 国际
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 资讯
  • Cursor 中最受欢迎的 5 个 MCP Server!
  • 从GPT-5到DeepSeek V3.1,顶尖AI大模型的新方向出现了!
  • “AI购物代理”——电商下一个必争之地
  • 无账号&特殊网络,如何畅跑 Claude Code|附智谱「特别折扣」
  • 文档多模态RAG方案哪个更好?9类Embedding+3类MLLM+4类框架对比及古籍文档数据合成工具

2025 年 9 月
一 二 三 四 五 六 日
1234567
891011121314
15161718192021
22232425262728
2930  
« 8 月    

归档

  • 2025 年 9 月
  • 2025 年 8 月
  • 2025 年 7 月
  • 2025 年 6 月
  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月

AI新闻 | X平台 | APK反编译 | 京ICP备2024096144号 |
© 2025 每时AI • Built with GeneratePress
 下载我们的APP,AI秒送达!  立即下载
×