Agentic-R1 推理新范式,融合多策略蒸馏,实现高效工具链长链推理:
-
DualDistill:轨迹组合蒸馏方法,整合多教师模型异构推理路径,训练单一学生模型 -
资源节省:仅需4×A6000 GPU,支持工具调用融入长链思维(Chain-of-Thought) -
显著性能提升:在 DeepMath-L、Combinatorics300 等复杂推理任务中表现优异 -
自蒸馏增强:Agentic-R1-SD 通过自我蒸馏进一步优化模型效果,超越传统基线 -
开箱即用:提供完整训练、测试数据及预训练模型,支持快速复现与二次开发 -
代码安全提示:评估脚本执行模型生成代码,请确保使用可信模型


参考文献:
[1] http://github.com/StigLidu/DualDistill
[2] https://huggingface.co/VanishD/Agentic-R1
[3] https://huggingface.co/VanishD/Agentic-R1-SD
知识星球:Dify源码剖析及答疑,Dify扩展系统源码,AI书籍课程|AI报告论文,公众号付费资料。加微信buxingtianxia21
进NLP工程化资料群,以及Dify交流群。
(文:NLP工程化)