字节 DAPO 技术报告有感!大模型 RL 细节为王 下午2时 2025/04/01 作者 Datawhale 近期,清华发表的DAPO将32b-base做到了AIME 50分的效果。报告中提到动态采样、sft和rl策略对比等方法,并强调了良好流程的重要性。