从底层重构强化学习训练框架,阿里高德开源新方法:抛弃替代损失函数,仅需优化原始目标 下午11时 2025/04/25 作者 量子位 阿里-高德团队提出组策略梯度优化GPG方法,仅需优化原始目标,解决已有方法偏差,提高训练效率。在实验中,GPG性能全面超越现有方法,有望成为下一代基础模型训练的关键方法。
大厂AI Agent角逐,字节跳动携扣子空间进击 下午11时 2025/04/22 作者 财联社AI daily 字节跳动推出扣子空间内测版,主打办公场景的AI助手工具,通过部署多种AI智能体协同工作,支持MCP协议调用外部工具和专家级助手。