阿里 Qwen 团队深夜放毒,Qwen3 大模型家族来了!超越 DeepSeek-R1 与 o1?

🍹 Insight Daily 🪺

Aitrainee | 公众号:AI进修生

Hi,这里是Aitrainee,欢迎阅读本期新文章。

这次直接开源+开放权重,一口气 8 款模型,从蚊子腿 0.6B 到巨无霸 235B,任君选择。

里面有 2 款 MoE 模型,6 款传统 Dense 模型。

旗舰款 Qwen3-235B-A22B,参数看着吓人,但活跃参数 22B。官方宣称,在编码、数学、通用能力这些硬核指标上,能跟 DeepSeek-R1, o1, o3-mini, Grok-3, Gemini-2.5-Pro 这些顶级选手掰手腕。

更牛的是小个子的 MoE 模型 Qwen3-30B-A3B,只用十分之一的活跃参数,就把自家前辈 QwQ-32B 给干翻了。

甚至连 Qwen3-4B 这种小不点,都能跟 Qwen2.5-72B-Instruct 打得有来有回。

怎么用?

  • 在线体验: Qwen Chat 网页版 (https://chat.qwen.ai) 和 APP 已经能直接试用。

  • 模型下载: Hugging Face, ModelScope 等平台已提供模型权重下载 (包括预训练和后训练版本)。

  • 部署框架推荐: SGLang, vLLM。

  • 本地运行工具推荐: Ollama, LMStudio, MLX, llama.cpp, KTransformers。


Benchmark 成绩单

先看小模型组 (MoE 30B & Dense 4B):

  • Qwen3-30B-A3B (MoE) vs QwQ-32B (老 MoE): 新 MoE 全面小胜,尤其在 ArenaHard、AIME、GPQA、LiveBench、BFCL、MultiIF 这些项目上更明显。长江后浪推前浪。

  • Qwen3-4B (Dense) vs Qwen2.5-72B-Instruct (老 72B): 4B 小钢炮有点猛,在 AIME、LiveBench、BFCL 这些地方甚至能跟老大哥 72B 打得有来有回,甚至反超。越级打怪了属于是。

  • Qwen3-30B-A3B (MoE) vs 竞品 (Gemma3, DeepSeek V3, GPT-4o): 新 30B MoE 对比这些对手,在 AIME、CodeForces、GPQA、LiveBench、MultiIF 上都不虚,甚至小优。

小模型能打,MoE 效率高,4B 性价比突出。


再看大模型组 (旗舰 MoE 235B & Dense 32B):

  • Qwen3-235B-A22B (旗舰 MoE) vs 顶级选手 (Gemini 2.5 Pro, o1, DeepSeek-R1): 旗舰 MoE 硬碰硬,跟 Gemini 2.5 Pro 在多个项目上打得难分难解 (AIME, CodeForces, LiveBench, BFCL),基本不落下风。对 o1 和 DeepSeek-R1 则优势比较明显。实力够顶。

  • Qwen3-32B (Dense) vs 竞品 (o1, DeepSeek-R1, o3-mini): 32B Dense 也挺能打,跟 DeepSeek-R1、o3-mini 比,各有胜负,实力不俗。

旗舰 235B MoE 稳坐第一梯队,32B Dense 也是个强力选手。


其他亮点:


  • 可伸缩推理预算 (Scalable Reasoning Budget): 性能提升跟计算推理预算直接挂钩。用户可以根据任务需求,灵活配置预算,平衡成本和效果。
  • 支持 119 种语言和方言,国际化拉满。

  • Coding & Agent 能力优化: 特别加强了编码和 Agent 能力,还强化了对 MCP (模型上下文协议) 的支持。官方给出了 Qwen3 如何思考并与环境交互的例子。

阿里 Qwen3 这波开源发布,从超大杯到小甜点全覆盖,不仅旗舰模型性能直逼业界顶尖,小模型的表现也相当惊艳。加上可控推理预算、超强多语言能力和对 Agent/MCP 的优化,Qwen3 无疑给开源社区注入了新的强心针。想尝鲜的开发者可以开冲了。


Qwen3 代码能力实测:结论——可以加显卡了,本地最强开源编码模型。

博主 Karminski 放出 Qwen3 在 KCORES LLM Arena 上的代码测试结果。

直接上结论:想本地部署跑代码?Qwen3 就是目前开源模型里的最优选。

看具体测试:

  • 20 小球七边形:小球会掉出来,摩擦力 casi 没有,但整体还行。得分 71,跟 Gemini-2.0-Flash 差不多。

  • Mandelbrot 分形:渲染范围太大,颜色搞反了。但渲染性能和准确度都不错。得分 89,追平自家 Qwen2.5-Max。

  • 火星任务:表现很顶!知道往返都要窗口期 (很多模型都不知道),误差不大。得分 49,仅次于 Gemini-2.5-Pro。

  • 太阳系模拟:效果平平无奇,没土星环,没特效。但胜在没犯大错。得分 85,和 OpenAI-o4-mini 一档。

单项看没啥特别炸裂的,但架不住发挥稳定。

综合得分 329.6,直接冲到 KCORES 榜单第四,开源模型里排第一。

接下来就看 Aider Leaderboard 和 SWE Bench 的表现了。

评测地址:github.com/KCORES/kcores-LLM-Arena


社区已经出现一些编码实践了:

外国网友配梗图表示:


235B 大模型本地跑?苹果 M2 Ultra + MLX,Qwen3 跑出 28 toks/秒。

苹果的 AI 大佬 Awni Hannun 亲自下场,秀了一把 M2 Ultra 的肌肉。

他在 M2 Ultra (76 核, 192GB 内存) 上,用自家 mlx-lm 框架,成功跑起了刚发布的 Qwen3-235B MoE (22B 活跃参数) 模型。

4bit 量化后,模型占了大概 132GB 内存

关键是速度:生成 580 个 token,跑出了 ~28 toks/秒。

这对于在消费级(虽然是顶配)芯片上跑这么大的模型来说,相当快了。

Awni 说他发推时,HF 上还没这个量化模型,他是自己用 mlx_lm.convert 转的。

想复现?命令也给了:先 mlx_lm.convert –hf-path Qwen/Qwen3-235B-A22B -q,再 mlx_lm.generate –model mlx_model –prompt “你的提示” –max-tokens 2048

这操作,评论区直接:

  • 有人惊叹:“这只是一台 M2 Ultra?” (是的!)

  • 直呼:“Mac 要成推理神器了。”

看来苹果芯本地跑大模型,越来越有搞头了。

🌟 知音难求,自我修炼亦艰,抓住前沿技术的机遇,与我们一起成为创新的超级个体(把握AIGC时代的个人力量)。
参考链接:
[1] https://x.com/Alibaba_Qwen/status/1916962087676612998

点这里👇关注我,记得标星哦~

(文:AI进修生)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往