Deepseek R1及Deep research复现回顾及近期前沿进展速递

今天是2025年02月16日,星期日,北京,天气晴。

社区第39讲DeepseekR1及Deepresearch复现顺利结束,我们来做个回顾。

我们继续来看关于大模型推理及复现的一些进展速递。

专题化,体系化,会有更多深度思考。大家一起加油。

一、社区第39讲DeepseekR1及Deepresearch复现顺利结束

昨晚,老刘说NLP社区第39讲《DeepseekR1及Deepresearch复现》顺利结束,历时4个小时,干货满满。

会议深入探讨了深度强化学习在推理模型、机器学习模型优化、数据蒸馏与微调学习等方面的实践方式和应用场景。

在这4个小时里,我们讨论了个多个内容,包括推理大模型的实现范式、特点、使用场景及使用建议、Deepseek R1复现思路及众多复现项目的整体思路、蒸馏Deepseek R1进行微调复现复现思路、Deepseek R1-zero核心思路-GRPO强化学习+奖励策略自动生成推理行为、Deepseek R1开源复现项目解读、DeepResearch的认知揭秘、DeepResearch的开源复现等多个内容

这是社区第39讲报告了,欢迎更多的社区成员参与进来,也欢迎大家加入社区。

二、关于大模型推理及复现的一些进展速递

1、DeepSeek-MoE-ResourceMap

DeepSeek模型架构与资源库解析DeepSeek V3架构,提供技术分析,汇集多种模型训练与部署策略: https://github.com/chenweiphd/DeepSeek-MoE-ResourceMap

2、OpenR1-Math-Raw

从DeepSeek R1完整版蒸馏的超大规模数学推理数据集,为数学问题解决和AI推理训练提供海量资源。包含516,499个数学问题,涵盖多种数学领域,提供1,209,403个由AI生成的解决方案,平均每个问题有2.3个解决方案;669,493个解决方案经过Math Verify验证,确保高质量训练数据:https://huggingface.co/datasets/open-r1/OpenR1-Math-Raw

3、R1复现进展,open-thoughts团队基于Qwen2.5-32B-Instruct 蒸馏出了一个新模型 OpenThinker-32B

其中MATH500数学测试达到了90.6分,作为对比,OpenAI-o1-mini是90分,DeepSeek-V3是90.2分。而他们放出的DeepSeek-R1-Distill-Qwen-32B MATH500成绩是89.4,而按照DeepSeek-R1放出的测试数据,DeepSeek-R1-Distill-Qwen-32B MATH500成绩是94.3。

不确定是统计口径不同或者两次运行结果不同造成的,MATH-500测试出入感觉比较大,建议综合各项数据看待,

起到决定性因素的是他们的数据集OpenThoughts-114k:https://huggingface.co/open-thoughts/OpenThinker-32B

4、关于大模型推理能力

LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters!,https://arxiv.org/pdf/2502.07374,使用DeepSeek R1和QwQ-32B-Preview生成的17k长链推理样本进行训练。这些样本来自AMC/AIME数学问题和APPS、TACO编程问题。

使用Llama-Factory进行训练,采用批量大小为96,学习率为1e-5,并使用线性学习率衰减。采用LoRA进行参数高效的微调。在五个流行的数学和编程推理基准上进行评估,包括Math-500、OlympiadBench、AIME-2024、AMC23和LiveCodeBench。使用17k样本进行微调后,Qwen2.5-32B-Instruct模型在多个基准上取得了显著的性能提升,甚至在某些任务上达到了OpenAI o1-preview模型的水平。

研究发现,长链推理的结构比单个推理步骤的内容更为关键。即使推理步骤的内容出现错误,模型的性能影响较小;而结构的破坏会导致性能显著下降。具体来说,当67%的训练样本的推理步骤被随机打乱时,模型在AIME 2024问题上的准确率下降了13.3%。

5、关注应用,AniLines-Anime-Line-Extractor

AniLines-Anime-Line-Extractor,这个工作从动漫图片和视频中提取清晰线稿,提供“基础”和“细节”两种模式,细节模式能提取更多背景和边缘线条;支持视频处理,可直接生成线稿视频;支持二值化输出,满足动画制作需求: https://github.com/zhenglinpan/AniLines-Anime-Line-Extractor

(文:老刘说NLP)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往