unsloth制作了一份关于大模型强化学习的完整指南
Unsloth发布了关于大模型强化学习的完整指南,涵盖目标、关键作用及在AI代理中的应用等内容,并提供了GRPO、RLHF、DPO和奖励函数的相关信息。
Unsloth发布了关于大模型强化学习的完整指南,涵盖目标、关键作用及在AI代理中的应用等内容,并提供了GRPO、RLHF、DPO和奖励函数的相关信息。
GitHub 上的资源列表 AgentsMeetRL 总结了使用强化学习训练 LLM Agents 的开源项目和相关技术信息。
生产级智能体 “Agents Towards Production” 是一个开源项目,提供从概念验证到生产的教程、工具和代码示例,涵盖编排、工具集成、可观测性等多个方面。
Office-PowerPoint-MCP-Server 功能强大,可通过 MCP 客户端快速安装使用,支持创建、编辑 PPT,涵盖多种元素功能。
Kimi-Dev 是一款强大的开源编程LLM,性能超越其他开源模型,在SWE-bench Verified上达到60.4%;支持本地部署和Hugging Face使用,并通过大规模强化学习优化解决方案的准确性和鲁棒性。
腾讯AI实验室推出的SongGeneration项目基于LeLM框架实现高质量歌曲生成,支持多偏好对齐和多种音乐风格表达,模型性能超越开源模型。
全球首个开源权重的大规模混合注意力推理模型MiniMax-M1发布,支持100万token上下文长度,计算效率提升75%,在复杂任务中表现卓越。