重磅！阿里Qwen3超越Kimi-K2、DeepSeek-V3登顶，附一手实测

作者｜子川

来源｜AI先锋官

卷，实在是太卷了！

上周kimi推出K2，登顶开源模型宝座！屁股还未坐热，就被Qwen3超越！

就在今天深夜，阿里千问悄然发布了全新升级版Qwen3模型（Qwen3-235B-A22B）。

再次刷新了开源大模型的性能上限。

从官方放出的跑分成绩来看，新版Qwen3在指令遵循、逻辑推理、文本理解、数学、科学、编程以及工具使用等多个维度上实现了质的飞跃。

在GQPA（知识）、AIME25（数学）、LiveCodeBench（编程）、Arena-Hard（人类偏好对齐）、BFCL（Agent能力）等一系列国内外权威测评中。

超过Kimi-K2、DeepSeek-V3等顶级开源模型以及Claude-Opus4-Non-thinking等领先闭源模型。

此次推出的Qwen3-235B-A22B-Instruct-2507是之前Qwen3-235B-A22B 非思考模式的升级版

目前，该模型已可在Qwen Chat上体验，模型权重已在魔搭和HuggingFace上线。另外，Qwen团队负责人还暗示即将发布Qwen3-Coder系列模型。

此次全新升级的Qwen3模型实际的效果到底如何呢？老规矩，我们来测一测。

同属阿里巴巴，小编就让它仿照淘宝生成一个小宝的网站。

提示词：帮我仿照淘宝生成一个名字为小宝的网站

效果似乎不咋滴，原因也很简单，Qwen3并不是一个Agent，所以让它直接生成一个网站，多少有点难为它了。

为了给大家更加直观的体验，我们将同样的提示词喂给kimik2。

效果都差不多。

换一个方向，测试一下它的提示词遵循能力。

提示词：你是一位资深前端开发专家，擅长创建简洁优雅的信息可视化界面。

请为广州设计一张未来5天的天气预报卡片，以HTML和CSS代码形式输出，请联网搜索当下真实日期的数据。遵循以下设计原则：

1. 采用极简主义设计风格(Minimalist)，遵循”少即是多”的理念

2. 使用不超过3种协调的颜色：主色调选择[#3366FF/蓝色/绿色]，搭配白色背景和深灰色文字

3. 字体选用无衬线字体如Helvetica或SF Pro Display，确保在各种设备上清晰易读

4. 设计响应式布局，优先考虑移动设备上的显示效果

卡片必须包含以下信息，并使用适当的视觉层次突出重要数据：

– 城市名称和当前日期（最显眼位置）

– 每日详细天气数据：日期、星期、最高/最低温度、天气状况

– 使用简洁的图标表示天气状况（晴、多云、雨等）

– 风向和风力信息（使用箭头或其他直观符号）

– 2-3条基于天气的生活建议（如适合户外活动、需要带伞等）

参考iOS天气应用和AccuWeather的设计语言，确保信息层次清晰，重要数据一目了然。添加细微的交互效果，如悬停时显示更多详情。

最终输出应是可直接使用的HTML和CSS代码，确保代码简洁高效，无需额外依赖。

天气卡片的效果还是非常不错的，简约的设计，设计风格符合提示词所描述的，气候、气温、日期这些信息一目了然。

不过稍微有一个小瑕疵，日期不对。

再来一个稍微难的，前段时间kimi k2的同款提示词。

提示词：创建一个 3D HTML 山脉场景，包含悬崖、河流和昼夜光照变化。支持拖动和缩放、动画过渡、真实感渐变色，并可切换等高线显示。

这次就直接翻车了，生成的效果不咋理想，山体、水流都没有呈现出来。

最后我们再来看看它的数学能力，测试时关闭了搜索和深度推理能力。

提示词：你和朋友轮流从一堆金币中取1、3或6枚。获胜者是最后取走金币的人。对于N<1000，第一位玩家有多少种赢得游戏的策略？

回答正确！

此次全新升级的Qwen3-235B-A22B-Instruct-2507主要提升了以下能力：

整体能力大幅提升：更准确地执行指令，增强了逻辑推理、理解文本、数学运算、科学知识、编程和工具使用能力。

多语言长尾知识覆盖：在多种语言中，对冷门或专业领域的信息掌握更全面。

更符合用户喜好：在主观或开放性任务中，能给出更贴心、更高质量的回答和文字生成。

256K 长上下文理解增强：能处理更长的对话或文档，记忆和理解能力更强。

写到最后，不免让人感叹，短短一周，开源圈从 Kimi K2 夺魁，再到 Qwen 3 连夜空降，问鼎第一。

至此，阿里已把 Qwen 家族的模型总数推进到 200+，仅 Qwen 3 就 一次放出 8 款（2 个 MoE + 6 个 Dense，0.6 B-235 B 全覆盖）。

虽然大家都在卷，但是不可否认的是，国内的开源模型已经在全球遥遥领先！

（文：AI先锋官）

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

发表评论 取消回复

发表评论取消回复