lmpo:一个简洁易懂的语言模型策略优化GitHub项目
一个简洁易懂的语言模型策略优化GitHub项目(lmpo),通过强化学习提升特定任务表现,核心代码约400行,支持多主机TPU训练和多种LLM强化学习环境。
一个简洁易懂的语言模型策略优化GitHub项目(lmpo),通过强化学习提升特定任务表现,核心代码约400行,支持多主机TPU训练和多种LLM强化学习环境。
MLNLP社区介绍其愿景是促进国内外NLP与机器学习领域内的交流与进步,本文介绍了Deltaformer模型及其在GPU上的高效实现方法,并证明了其在追踪元素交换任务上的能力。
近年来,大语言模型的研究热点转向了线性序列建模和混合专家架构的高效结合。来自上海人工智能实验室团队的Linear-MoE首次系统地实现了这两者的结合,并开源了完整的技术框架,支持层间混合架构。
本文介绍了一种名为RLFactory的开源框架,旨在通过简单且高效的端到端训练方法解决现有深度学习框架在奖励设计和工具配置上的复杂问题。
nanoAhaMoment是一款专门为大型语言模型设计的单文件强化学习库,特点包括:单GPU训练3B参数模型、提供详细教程和10小时内完成R1-zero倒计时任务。
本文介绍了五款开源项目,包括视频生成模型SkyReels V1、高效训练大型语言模型的simple_GRPO、经济高效的个人AI助手Auto-Deep-Research、轻量级主动智能框架LightAgent以及记忆系统Memobase。