组策略梯度优化GPG 归档

从底层重构强化学习训练框架，阿里高德开源新方法：抛弃替代损失函数，仅需优化原始目标

2025年4月25日23时作者量子位

阿里-高德团队提出组策略梯度优化GPG方法，仅需优化原始目标，解决已有方法偏差，提高训练效率。在实验中，GPG性能全面超越现有方法，有望成为下一代基础模型训练的关键方法。