字节跳动刚把自己招牌AI Agent开源了,可商用、超6000颗星

专注于AIGC领域的专业社区分享了扣子(Coze)AI Agent开发平台的功能和使用方法,包括模板选择、功能定制、语音设置等。扣子提供多种语言支持、记忆功能以及丰富的资源模块,简化开发流程,无需编写代码即可快速开发智能体应用。

首次结合RL与SFT各自优势,动态引导模型实现推理⾼效训练

刘子儒等人提出GHPO算法框架,在复杂推理模型训练中引入模仿学习,解决了奖励稀疏问题。该框架实现了在线强化学习与模仿学习的融合,并动态调整提示策略以适应不同难度的数据集。论文详细介绍了GHPO的具体实现和实验结果,其性能优于现有方法。