终于,它来了!Qwen3深夜发布,再次登顶全球大模型开源王座,再见DeepSeek。


今日凌晨,Qwen3终于发布。


网友直呼“等得好苦”。


我也想说,明知道大家都在等着,你今天才发布,咋不等五一大家都放假了再发布呢?????


Qwen系列也是超越众多模型再次登顶开源王座。


旗舰模型 Qwen3-235B-A22B 在代码、数学、通用能力等方面,已经超越 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等模型。


Qwen3-4B,这样一个小模型,也能跟 Qwen2.5-72B-Instruct 性能匹敌。



不啰嗦,争取用最少字数,讲清楚所有亮点。


扫码加入AI交流群

获得更多技术支持和交流

(请注明自己的职业)


模型型号


两个MOE模型


Qwen3-235B-A22B 总参数量 2350 亿,激活参数量 220 亿。


Qwen3-30B-A3B 总参数量 300 亿,激活参数量 30 亿。



六个密集模型


Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B和Qwen3-0.6B。



三大亮点


Qwen3是国内首个混合推理模型。


· 混合思维模式


Qwen-3引入了独特的“混合思维模式”,包括“思考模式”和“非思考模式”,根据任务需求灵活切换,在成本效率和推理质量之间的平衡更好把握。


思考模式:专为需要深度推理的任务设计,例如数学证明、战略规划或复杂问题解决。模型会逐步分析问题,提供详细的逻辑过程。


非思考模式:针对简单查询,提供快速、直接的回答。



· 多语言支持


Qwen3 模型支持119 种语言和方言。


之前的多语言能力不够好,所以我平时在开发中还是会用Gemini、GPT这些模型,现在多了一种选择。



· 增强代理能力


Qwen3优化了编程和Agent能力,增强了MCP(多角色扮演),能够更好地在复杂交互场景中发挥作用。



Qwen-3训练


预训练


Qwen-3的预训练使用了36万亿个token的数据集,相比Qwen2.5的18万亿token翻了一倍


这一数据集涵盖119种语言,来源包括网络文本、PDF文档以及通过Qwen2.5-VL和Qwen2.5生成的合成数据,特别针对数学和编程进行了优化。


预训练分为三个阶段:


  • S1阶段:使用30万亿token,上下文长度为4K,建立基础语言理解能力。

  • S2阶段:专注于知识密集型任务,使用5万亿token,提升模型在专业领域的表现。

  • S3阶段:针对长上下文理解,使用32K上下文长度,适用于处理长文档或复杂对话。


MoE模型仅激活10%的参数,大幅降低了计算成本,同时保持高性能。


后训练



Qwen-3的后训练采用四阶段流程:


  • 阶段1:长链式推理(CoT)冷启动:专注于复杂推理任务,训练模型处理多步骤问题。

  • 阶段2:基于推理的强化学习(RL):通过强化学习优化推理能力,提升逻辑严密性。

  • 阶段3:思考模式融合:将思考和非思考模式无缝整合,确保模式切换顺畅。

  • 阶段4:一般强化学习:在20多个任务上(如指令遵循、对话生成)进行微调,提升通用性。



Think Deeper, Act Faster


Qwen3再次用技术,把全球开发者聚在一起。


更多的语言支持,更强的性能,更快的速度,更低的成本,Qwen3再次让全球AI开源项目不得不考虑加入支持。


模型链接


https://huggingface.co/Qwen


文档链接


https://qwen.readthedocs.io/en/latest/


 关注「开源AI项目落地」公众号

(文:开源AI项目落地)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往