
-
项目页面:https://dapo-sia.github.io/ -
论文地址:https://dapo-sia.github.io/static/pdf/dapo_paper.pdf -
代码地址:https://github.com/volcengine/verl/tree/gm-tyx/puffin/main/recipe/dapo -
数据:https://huggingface.co/datasets/BytedTsinghua-SIA/DAPO-Math-17k



。然后,通过对群组级奖励
进行归一化来计算第 i 个响应的优势:


进行采样,并通过以下目标优化策略:



(图 3a)。这一发现支持了他们的分析,即上限剪辑阈值确实限制了低概率 token 的概率增长,从而可能限制了系统的多样性。








(文:机器之心)