slime:为 RL scaling 设计的 LLM post‑training 框架

团队在github上开源了一个slime, 是为 RL scaling 设计的 LLM post‑training 框架,提供两大核心能力:

  • 高性能训练:通过连接 Megatron 与 SGLang,支持各种模式的高效训练;
  • 灵活的数据生成:通过自定义数据生成接口以及 server based engine,实现任意的数据训练数据生成流程。

参考文献:
[1] https://github.com/THUDM/slime



知识星球:Dify源码剖析及答疑,Dify扩展系统源码,AI书籍课程|AI报告论文,公众号付费资料。加微信buxingtianxia21进NLP工程化资料群,以及Dify交流群。

(文:NLP工程化)

发表评论