重磅!阿里Qwen3超越Kimi-K2、DeepSeek-V3登顶,附一手实测

作者|子川

来源AI先锋官


卷,实在是太卷了!

上周kimi推出K2,登顶开源模型宝座!屁股还未坐热,就被Qwen3超越!

就在今天深夜,阿里千问悄然发布了全新升级版Qwen3模型(Qwen3-235B-A22B)。

再次刷新了开源大模型的性能上限。

从官方放出的跑分成绩来看,新版Qwen3在指令遵循、逻辑推理、文本理解、数学、科学、编程以及工具使用等多个维度上实现了质的飞跃。

在GQPA(知识)、AIME25(数学)、LiveCodeBench(编程)、Arena-Hard(人类偏好对齐)、BFCL(Agent能力)等一系列国内外权威测评中。

超过Kimi-K2、DeepSeek-V3等顶级开源模型以及Claude-Opus4-Non-thinking等领先闭源模型。

此次推出的Qwen3-235B-A22B-Instruct-2507是之前Qwen3-235B-A22B 非思考模式的升级版

目前,该模型已可在Qwen Chat上体验,模型权重已在魔搭HuggingFace上线。另外,Qwen团队负责人还暗示即将发布Qwen3-Coder系列模型。

此次全新升级的Qwen3模型实际的效果到底如何呢?老规矩,我们来测一测。

同属阿里巴巴,小编就让它仿照淘宝生成一个小宝的网站。

提示词:帮我仿照淘宝生成一个名字为小宝的网站

效果似乎不咋滴,原因也很简单,Qwen3并不是一个Agent,所以让它直接生成一个网站,多少有点难为它了。

为了给大家更加直观的体验,我们将同样的提示词喂给kimik2。

效果都差不多。

换一个方向,测试一下它的提示词遵循能力。

提示词:你是一位资深前端开发专家,擅长创建简洁优雅的信息可视化界面。

请为广州设计一张未来5天的天气预报卡片,以HTML和CSS代码形式输出,请联网搜索当下真实日期的数据。遵循以下设计原则:

1. 采用极简主义设计风格(Minimalist),遵循”少即是多”的理念

2. 使用不超过3种协调的颜色:主色调选择[#3366FF/蓝色/绿色],搭配白色背景和深灰色文字

3. 字体选用无衬线字体如Helvetica或SF Pro Display,确保在各种设备上清晰易读

4. 设计响应式布局,优先考虑移动设备上的显示效果

卡片必须包含以下信息,并使用适当的视觉层次突出重要数据:

– 城市名称和当前日期(最显眼位置)

– 每日详细天气数据:日期、星期、最高/最低温度、天气状况

– 使用简洁的图标表示天气状况(晴、多云、雨等)

– 风向和风力信息(使用箭头或其他直观符号)

– 2-3条基于天气的生活建议(如适合户外活动、需要带伞等)

参考iOS天气应用和AccuWeather的设计语言,确保信息层次清晰,重要数据一目了然。添加细微的交互效果,如悬停时显示更多详情。

最终输出应是可直接使用的HTML和CSS代码,确保代码简洁高效,无需额外依赖。

天气卡片的效果还是非常不错的,简约的设计,设计风格符合提示词所描述的,气候、气温、日期这些信息一目了然。

不过稍微有一个小瑕疵,日期不对。

再来一个稍微难的,前段时间kimi k2的同款提示词。  

提示词:创建一个 3D HTML 山脉场景,包含悬崖、河流和昼夜光照变化。支持拖动和缩放、动画过渡、真实感渐变色,并可切换等高线显示。

这次就直接翻车了,生成的效果不咋理想,山体、水流都没有呈现出来。

最后我们再来看看它的数学能力,测试时关闭了搜索和深度推理能力。

提示词:你和朋友轮流从一堆金币中取1、3或6枚。获胜者是最后取走金币的人。对于N<1000,第一位玩家有多少种赢得游戏的策略?

回答正确!

此次全新升级的Qwen3-235B-A22B-Instruct-2507主要提升了以下能力:

整体能力大幅提升:更准确地执行指令,增强了逻辑推理、理解文本、数学运算、科学知识、编程和工具使用能力。

多语言长尾知识覆盖:在多种语言中,对冷门或专业领域的信息掌握更全面。

更符合用户喜好:在主观或开放性任务中,能给出更贴心、更高质量的回答和文字生成。

256K 长上下文理解增强:能处理更长的对话或文档,记忆和理解能力更强。

写到最后,不免让人感叹,短短一周,开源圈从 Kimi K2 夺魁,再到 Qwen 3 连夜空降,问鼎第一。

至此,阿里已把 Qwen 家族的模型总数推进到 200+,仅 Qwen 3 就 一次放出 8 款(2 个 MoE + 6 个 Dense,0.6 B-235 B 全覆盖)。

虽然大家都在卷,但是不可否认的是,国内的开源模型已经在全球遥遥领先!


 

(文:AI先锋官)

发表评论