对话|有道“子曰3”数学模型开源背后


走出“大开发”时期。


来源|多知

作者|冯玮


六月末,网易有道开源了“子曰3”数学模型(Confucius3-Math,下称“子曰3”)。


子曰3是有道推理模型“子曰-o1” 在数学模型能力上的延伸,主打数学、逻辑与推理能力;同时也是一款专门面向教育机构、学校与开发者使用的模型。


据有道官方测试,在CK12-math(Internal)、GAOKAO-Bench(Math)、MathBench(K12)、MATH500等数据集上,14B轻量级的“子曰3”各项得分均高于DeepSeek-R1等通用大模型。


值得注意的是,在GAOKAO-Bench(Math)这一基于高考数学题的大模型评测框架中,“子曰3”拿到了98.5分。


这是个不错的成绩。


网易有道近两年一直在加大对AI大模型的研发,而子曰系列正是重要成果之一。相比通用大语言模型,此次的子曰3更侧重结构化、符号化表达与严谨推理能力,符合教育、科研等需求场景。


发稿前,子曰3已同步开源,支持企业与个人免费使用——这意味着教育机构和开发者都能以低成本部署自己的数学AI应用。


子曰3到底一个什么样的模型?有道开发和开源子曰3的思路是什么?


多知独家对话网易有道首席科学家段亦涛。


01

子曰锚定数学?


多知:能否介绍下子曰3的立项背景?


段亦涛:这次模型的升级和开源,本质上是有道一贯秉承的AI发展思路的延续。


这个思路就是AI技术一定要在应用中去发展。因为AI就是一个以复刻人类智能为目标的技术,只有在应用中才能理解其本质,验证其价值。


有道从事的是教育。这是一个AI有可能做出巨大创新的行业,也是一个对AI的能力提出更严格要求的行业。目前来看这个行业缺乏一个低成本,高性能,同时也开源的模型。这里每一点要求都必不可少。只有低成本才能打破数字鸿沟,均衡教育资源,保证公平性。只有高性能才能保证结果的正确性,避免误人子弟。开源除了可以进一步降低使用门槛,提高资源公平性之外,还可以促进合作,聚合更多力量。


从技术发展的大趋势和条件看,这几年大模型的发展带来了技术上质的飞跃,尤其是近一年多来,模型的推理能力快速发展,有希望解决复杂的问题,达到前面说的高性能的目标。但从应用的要求来看,还有一定的差距。


子曰3就是在这些背景下立项。我们认为当前需求很明确,条件趋于成熟。子曰3的定位是一个低成本高性能多学科的教育模型。目前推出的子曰3数学是其中的第一步,聚焦在数学和解题答疑能力。以此为基础,后续会拓展到其他学科和能力。


多知:有道现在对推理模型的投入好像越来越重?


段亦涛:对,推理能力一直是最新大模型发展的重点。


去年OpenAI 的 o1 模型在解决数学和编程等复杂多步骤任务方面取得了重大突破,引发了大家的关注,但其中的实现细节透露不多。DeepSeek R1披露更完整和详细的构建推理能力的技术。它是首个证明纯强化学习(RL)能够有效培养高级推理技能的模型,实现了诸如链式思维和自我验证等有机涌现的推理行为。除了技术成就之外,R1 的开放性还使更多人能够获取使用。


DeepSeek R1验证了我们的一些猜测。我们认为强化学习有非常大的潜力,能够大大提升模型能力的天花板。同时纯强化学习后期训练更具成本效益。


这是我们决定做后面的事情的很重要的技术基础。


多知:有道子曰3在对推理能力能力升级后,对于数学答疑场景带来的变化有哪些?


段亦涛:答疑能力并不等同于解题能力,但前者会非常依赖后者。首先,当我们的模型能力本身提升后,在我们实际的产品使用场景中AI的结果准确率也一定会相应提升,这会给用户一个更好的体验。其次,有了更强的解题能力之后,再去优化模型的答疑能力,可以起到事半功倍的效果。


所以子曰3首先针对数学解题场景上做了很多的优化,比如在数据上,我们收集了几百万学生易错的试题并采用多种方法进行过滤,用来确保数据的质量;在训练阶段,我们采用了纯强化学习策略,并提出像近期样本恢复(Recent Sample Recovery)、特定策略的难度加权(Policy-Specific Hardness Weighting)等新技术,有效地加强了模型的解题能力。同时我们也在训练过程中引入了对解题过程的价值反馈,使得模型能够生成对用户理解问题和解法有帮助的信息,大大提高了答疑效率和效果。


多知:在大模型训练中,有两种技术方法,一个是强化学习,它只给答案的对错反馈,另外一个是之前常用的监督学习,它给出中间的详细步骤。您怎么看这两种方式?


段亦涛:是的,我也和同行交流过类似的问题,的确目前这两种方式都存在,一种是我们现在使用的强化学习优化方法,它只给答案的对错反馈,不管中间步骤,由模型发挥;另一种则是一步一步锁定答案和逻辑思路。


对于优化模型的推理能力,它们都是有用的,也都在不同的阶段使用。


但是后者更倾向于“手把手”式的教学,一方面这对数据本身的要求会更高,另一方面对模型也会施加限制,让模型只能照猫画虎地学习,再往前就不行了。


我们认为,强化学习的路线更有潜力,天花板更高。它为模型提供自由发挥的空间,甚至可以让模型学到超出人类自身的能力,就像我们在围棋AI中做到的那样。


02

全面开源:走出“大开发”时期


多知:这次为什么选择开源?另外在合作上有什么考量么?


段亦涛:我们整体还是比较开放。


目前已经把模型完全开源了,同步也放出相关代码和论文细节。所以合作方想直接用也可以,想在现有基础上进一步开发也可以,伴随后面新功能的不断推出,我想我们也会有更多的合作状态。


选择开源一方面肯定还是希望在我们的能力范畴内能够帮助行业有需要的企业一起发展。另外我们自身的技术发展得益于开源社区的贡献,我们也希望通过开源反哺相关的社区。


在教育领域,开放本身就是一个很重要的环节:我们越开放,也会有越来越多的人来关注、使用和纠察,我们就可以一起进步,这对我们,对行业都是有益的。


现在很多学校和机构需要轻量级模型以便独立部署与定制调优,子曰3数学模型的14B规格优势也相应提升:推理部署仅需24G显存显卡单卡,微调训练通过4-8卡单机就可以完成了。


我们非常欢迎,也很期待大家来使用它。


多知:能不能具体介绍下接入方式?


段亦涛:目前我们提供了两种,一种直接把模型拿下来去部署,基本上一张消费级的显卡就可以跑,这是一个非常低门槛的使用方式了。


另外一种是通过我们或者其他云服务的供应商把模型部署起来后,再去调用。


我们目前的模型能力还聚焦在解题上,但其实公立校、培训机构等等的需求都是不一样的,比如她们可能不仅需要解题、还需要面对不同能力的人给出不同的解题思路、以及组卷、批改等等。


在各种各样的需求下,我们的模型也会慢慢延伸为不同的功能和应用。


这些我想很快都会在我们的客户端上实现的。


多知:是不是会有这样一个可能,伴随着每个机构都有自己的模型能力,接下来将不再需要依赖题库去解题了?


段亦涛:这是必然的。以后解题都不会依赖题库了,教育机构只需要出题或者提供其他的服务。


我们当前版本的模型,就可以在我们的用户场景下做到96%准确率。预计很快能提升到98%以上。我们的下一步在进一步提升解题能力的同时,会拓展学科,以及构建学习过程中其他需求的能力。


多知:能否分享下长远规划?


段亦涛:其实我们已经在一些维度实现了进展,但还没有在这次公开。


整体来看,接下来一定是推理能力的进一步增强,模型将能够更准地解更难的题;另外会支持更多学科;最后还有在其他教育和学习相关的功能上的拓展。


比如这一次我们是在答疑解题的能力上提供了更多支持,那么以后,可能同样是一个AI老师的角色,但这位老师将可以实现陪伴、引导、答疑解惑、组卷判卷,甚至是更多学生们细碎的需求,我们都可以给出恰到好处的帮助。


大模型技术落地这个事情,在行业里还有点像“大开发”的阶段。


我想我们相较于竞争,更加需要关注的是合作,这也正式我们选择开源的原因,因为对整个AI行业来讲,我们还有很多困难还没有解决、还没有开发好。


我们多试试,多做做,才会使我们对这个领域的认知真正地成熟起来。而当基础设施逐渐实现的时候,我们同时去想大家各自靠什么方式种什么样的果子,这样才会有一个持续发展的行业。


对话后,我们也实测了子曰3在数学答疑中的表现。


03

实测子曰3,如何解决数学难题?


该如何理解子曰3的模型能力?


多知找到了三道数学题目来测试。


实测地址:https://confucius.youdao.com/


第一题,我们先拿一道简单的函数题开始。


函数 y = √(2-x)/lg (x+1) 的定义域是 __________。


这道题其实并不难,但在这道题的解答思路里,却展示了子曰3的一些特点。


比如思考过程的细致展现与“类人”的部分。


子曰3自称“我”,在答题过程中出现了“我记得函数的定义域……”、“这应该是指以10为底的对数吧……”、“所以现在我得把各个条件……”、“对吗?或者有没有哪里遗漏了……”等等非常拟人化的思路和表达。


子曰3还会反复检查。


可以看到子曰3在每一步推演后都会及时考虑如限制、遗漏情况、出错可能。对于学生来说,也是一种必要的提示。


在全部推演完成后,子曰3又单独拿出了几个关键点进行重复验证。


最后的答案也没有任何问题,非常清晰。


第二题,我们选择了2025年高考数学题。


2025年新高考一卷多选第11题,被多位老师评为今年的好题之一。


这道题的特别之处在于,其相比于常规的解三角形类题目,解题方法差别很大,这也让今年的考生们在面对题目给出的三个条件时无从下手。


我们把这道题留给了子曰3。


需要注意的是,目前子曰3还不能直接通过输入图片或直接导入链接来识别题目。这个时候我们把题目输入到可以识别图片的模型中并提出“给出LaTex表达式”的要求即可以转出。


这个部分对于初次使用的用户还是需要适应一下。


但掌握后可以看到子曰3也很快进入识别理解与答疑之中。


这道题目的冷门之处在于,学生们习惯使用利用三角恒等变换公式化简的方式是无法解开的。因此在解题时需要先分析三角形的形状,根据内角的取值进行分析。


子曰3并非一开始就找到了最佳方案的。


在解答过程中,子曰3尝试了多个解题思路,在多个步骤中出现如“考虑另一种方式”、“这样可能比较复杂”、“可以再想想别的方法”并马上调整。


在最终,子曰先根据题目条件利用余弦倍角公式进行化简,同时得到A选项的正确性,


其次根据题目条件得到A,B均为锐角,在A选项的基础上借助正弦定理得出三边之间的关系,推出C只能为锐角或直角;进而再讨论C的取值,利用反证法结合A,B为锐角得出C为直角。


最终在直角三角形的基础上结合余弦和角公式和正弦定理求出边长,最终得出其余选项的正确性……


延续了前一题的风格,这道题的答案还是两次验证后得出。


子曰3也还是表现的不错的。


第三题,我们选择了一道南京五年级数学应用题,并要求它用孩子更好理解的方式讲解。


这个问题比较简单,很快得到了完整的回答,同时子曰3的讲解方式也比较适合小学的学生们。


也有小学生对多知解读,这种大段的讲解容易“看不下去”,添加适当的图片或用简短方式来提供答疑,或许也会更适合低龄用户。


另外答案里的LaTex还剩下一点,没有正确渲染出来。


不过总体上,子曰3还是很好地针对我们的数学问题给出了解题思路。


至此,子曰3的数学能力也验证出当前有道对推理模型能力的提升,以及对强化学习落地的思考不断深入。


另附:


附1:Demo

https://confucius.youdao.com/


附2:模型下载地址

https://github.com/netease-youdao/Confucius3-Math


附3:“子曰3”论文

《Conucius3-Math: A Lightweight High-Performance Reasoning LLM for Chinese K-12 Mathematics Learning》


END

(文:多知)

发表评论