Deepseek R1及Deep research复现回顾及近期前沿进展速递
2025年02月16日,北京晴天。社区第39讲《DeepseekR1及Deepresearch复现》顺利结束,老刘报告了4小时深度讨论内容。介绍了大模型推理和复现进展,包括DeepSeek-MoE-ResourceMap、OpenR1-Math-Raw等资源库,并展示了OpenThinker-32B在MATH500测试中的表现。研究发现,长链推理的结构比内容更重要。老刘呼吁社区成员参与讨论。
2025年02月16日,北京晴天。社区第39讲《DeepseekR1及Deepresearch复现》顺利结束,老刘报告了4小时深度讨论内容。介绍了大模型推理和复现进展,包括DeepSeek-MoE-ResourceMap、OpenR1-Math-Raw等资源库,并展示了OpenThinker-32B在MATH500测试中的表现。研究发现,长链推理的结构比内容更重要。老刘呼吁社区成员参与讨论。
研究团队通过蒸馏技术从阿里通义Qwen2.5-32B-Instruct模型出发,结合Gemini 2.0 Flash Thinking实验版数据集训练出高性能推理模型s1-32B,在数学评测集中表现优异。
阶跃星辰发布的Step Reasoner mini是首个推理模型,擅长逻辑推理、代码和数学问题,并能进行文学创作。该模型通过强化学习训练,实现文理兼修。它在AIME 2024和Math500测试中均表现出色,且具有较好的泛化性。
加州大学伯克利分校发布Sky-T1-32B-Preview,其训练成本不到450美元。该模型在多个关键基准测试中与OpenAI o1的早期版本相当,并且是首个开源的推理模型。
大模型智谱o1发布引发热议,相比OpenAI o1,在数学和代码能力上表现更优。文章通过对比展示了其在多项测试中的表现,并分享了对未来的展望和期待。