终于，它来了！Qwen3深夜发布，再次登顶全球大模型开源王座，再见DeepSeek。

今日凌晨，Qwen3终于发布。

网友直呼“等得好苦”。

我也想说，明知道大家都在等着，你今天才发布，咋不等五一大家都放假了再发布呢？？？？？

Qwen系列也是超越众多模型再次登顶开源王座。

旗舰模型 Qwen3-235B-A22B 在代码、数学、通用能力等方面，已经超越 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等模型。

Qwen3-4B，这样一个小模型，也能跟 Qwen2.5-72B-Instruct 性能匹敌。

不啰嗦，争取用最少字数，讲清楚所有亮点。

扫码加入AI交流群

获得更多技术支持和交流

（请注明自己的职业）

模型型号

两个MOE模型

Qwen3-235B-A22B 总参数量 2350 亿，激活参数量 220 亿。

Qwen3-30B-A3B 总参数量 300 亿，激活参数量 30 亿。

六个密集模型

Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B和Qwen3-0.6B。

三大亮点

Qwen3是国内首个混合推理模型。

· 混合思维模式

Qwen-3引入了独特的“混合思维模式”，包括“思考模式”和“非思考模式”，根据任务需求灵活切换，在成本效率和推理质量之间的平衡更好把握。

思考模式：专为需要深度推理的任务设计，例如数学证明、战略规划或复杂问题解决。模型会逐步分析问题，提供详细的逻辑过程。

非思考模式：针对简单查询，提供快速、直接的回答。

· 多语言支持

Qwen3 模型支持119 种语言和方言。

之前的多语言能力不够好，所以我平时在开发中还是会用Gemini、GPT这些模型，现在多了一种选择。

· 增强代理能力

Qwen3优化了编程和Agent能力，增强了MCP（多角色扮演），能够更好地在复杂交互场景中发挥作用。

Qwen-3训练

预训练

Qwen-3的预训练使用了36万亿个token的数据集，相比Qwen2.5的18万亿token翻了一倍。

这一数据集涵盖119种语言，来源包括网络文本、PDF文档以及通过Qwen2.5-VL和Qwen2.5生成的合成数据，特别针对数学和编程进行了优化。

预训练分为三个阶段：

S1阶段：使用30万亿token，上下文长度为4K，建立基础语言理解能力。
S2阶段：专注于知识密集型任务，使用5万亿token，提升模型在专业领域的表现。
S3阶段：针对长上下文理解，使用32K上下文长度，适用于处理长文档或复杂对话。

MoE模型仅激活10%的参数，大幅降低了计算成本，同时保持高性能。

后训练

Qwen-3的后训练采用四阶段流程：

阶段1：长链式推理（CoT）冷启动：专注于复杂推理任务，训练模型处理多步骤问题。
阶段2：基于推理的强化学习（RL）：通过强化学习优化推理能力，提升逻辑严密性。
阶段3：思考模式融合：将思考和非思考模式无缝整合，确保模式切换顺畅。
阶段4：一般强化学习：在20多个任务上（如指令遵循、对话生成）进行微调，提升通用性。

Think Deeper, Act Faster

Qwen3再次用技术，把全球开发者聚在一起。

更多的语言支持，更强的性能，更快的速度，更低的成本，Qwen3再次让全球AI开源项目不得不考虑加入支持。

模型链接

https://huggingface.co/Qwen

文档链接

https://qwen.readthedocs.io/en/latest/

关注「开源AI项目落地」公众号

（文：开源AI项目落地）

2026 年 1 月
一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

发表评论 取消回复

发表评论取消回复