diffu-GRPO 归档 - 每时AI

扩散LLM推理用上类GRPO强化学习！优于单独SFT，UCLA、Meta新框架d1开源

2025年4月20日16时作者机器之心

扩散模型通过新框架d1实现推理功能，结合监督微调与新颖策略梯度方法diffu-GRPO提升数学和逻辑推理能力。