GRPO 归档 - 第4页共4页

开源复现DeepSeek R1的文本到图谱抽取训练open-r1-text2graph

2025年2月10日23时作者 GitHubStore

该项目基于Hugging Face Open-R1和trl构建，并重现了DeepSeek R1训练方案。通过合成数据生成、监督训练和强化学习（使用GRPO策略优化）等步骤，旨在提高模型进行文本到图信息提取的能力。

2025年2月7日16时作者机器之心

版能训练哪种大模型？本文为那些 GPU 资源有限时使用 GRPO 训练的开发者提供了宝贵的指导。
自

2025年1月13日23时作者极市干货

↑ 点击
蓝字
关注极市平台
作者丨ybq
来源丨NLP工作站
编辑丨极市平台
极市导读
本文探讨了