verl-pipeline:为大规模语言模型(LLM)的强化学习训练提供高效、灵活的解决方案

Agentica-project/verl-pipeline:为大规模语言模型(LLM)的强化学习训练提供高效、灵活的解决方案。亮点:1. 支持高达70B参数模型和数百个GPU的扩展;2. 集成多种主流LLM框架,如PyTorch FSDP、Megatron-LM和vLLM;3. 提供多种强化学习算法,如PPO、GRPO和ReMax。

参考文献:
[1] http://github.com/agentica-project/verl-pipeline



知识星球服务内容:Dify源码剖析及答疑,Dify对话系统源码,NLP电子书籍报告下载,公众号所有付费资料。加微信buxingtianxia21进NLP工程化资料群

(文:NLP工程化)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往