从底层重构强化学习训练框架,阿里高德开源新方法:抛弃替代损失函数,仅需优化原始目标

阿里-高德团队提出组策略梯度优化GPG方法,仅需优化原始目标,解决已有方法偏差,提高训练效率。在实验中,GPG性能全面超越现有方法,有望成为下一代基础模型训练的关键方法。