Kimi 刚登顶，阿里连发两模型反击！国产大模型，卷疯了

最近的国产 AI 圈，是真的热闹。

就在上周，月之暗面凭借 Kimi K2，一举击败 DeepSeek、阿里 Qwen、Meta Llama，坐上了全球开源模型排行榜的头把交椅。

Kimi K2 登顶开源模型榜首，DeepSeek 和 Qwen 分列第二、第三，国产模型形成三强格局

不过这个“第一”的位置还没捂热，阿里 Qwen 就突然发力，在两天内连续发布两个新模型反击：Qwen3-235B-A22B-Instruct-2507 和 Qwen3-Coder。

虽然名义上只是“小版本升级”，关注度和实力却一点不小。

Artificial Analysis 排行榜直接发文：“Qwen3-235B-A22B-Instruct-2507 是目前最强的非推理模型，在 Artificial Analysis 指数上超过了 Kimi K2 和 Claude 4 Opus（非推理）！”

Qwen3-2507 超过 Kimi 和 Claude 4 Opus，在非推理模型中取得领先

那么，这波更新，到底实力如何？

今天就来聊聊阿里 Qwen 的这两个新模型。

01｜Qwen3-235B-A22B-Instruct-2507

见名知意。

Qwen3-235B-A22B-Instruct-2507 就是前代模型 Qwen3-235B-A22B 在非思考模式下的一次升级迭代。

之所以强调“非思考模式”，是因为原始版本本身就带有一个非常有意思的设定：混合推理（Hybrid Reasoning）。

简单来说，就像是“一个模型，两个大脑”。遇到简单任务，模型能够不假思索地回答（快思考）；但面对复杂难题，模型就会自动切换到推理模式（慢思考）。

而这次发布的 2507 版本，可以看作是对这种“混合架构”的一次拆分。它就是一个纯非推理模型，不再走思维链，主打响应速度、稳定表现，定位更贴近 DeepSeek-V3 和 GPT-4o 这种通用模型。

性能方面，从基准测试结果来看，2507 撑得起 Artificial Analysis 排行榜官方对它的评价。

Qwen3-2507 在 GPQA、AIME25、LiveCodeBench、Arena-Hard、BFCL 基准测试中的表现对比

在 GPQA（知识推理）、AIME25（数学）、LiveCodeBench（编程）、Arena-Hard（对齐）、BFCL（Agent 工具使用）这五项测试中，几乎所有指标 2507 都拿下了非推理模型的最高分，平均领先第二名在 5~15 分不等。

尤其是 AIME25，2507 得分 70.3%，远超前代模型的 24.7%、Kimi K2 的 49.5% 和 Claude Opus 4 的 33.9%。这对于一个非推理模型来说，属于实打实的提升了。

另外值得一提的是，2507 的上下文长度已由原来的 131K 提升到了 256K。

当然，基准测试亮眼，实际体验拉跨的模型我们见的也不是一个两个了，所以，2507 具体怎么样，是否符合你的预期，还需要以真实体验为准。

要使用 2507 也很简单，在 qwen.ai 进入 Qwen Chat，左上角 模型选择 菜单里选 Qwen3-235B-A22B-2507 就行。

完全免费，支持网页、iOS/安卓 app、以及 macOS 桌面客户端。

在 Qwen Chat 中手动切换 Qwen3-235B-A22B-2507 模型，支持 Web 与客户端

02｜Qwen3-Coder

相比 2507 的通用，Qwen3-Coder 明显更加垂直 —— “为代码而生”。

据阿里官方的说法，这次发布的是当前最强版本：Qwen3-Coder-480B-A35B-Instruct。

采用 MoE 架构，480B 总参数、35B 激活参数，原生上下文支持 256K，借助 YaRN 甚至可以扩展至 100 万 tokens。

在官方提供的评测结果中，Qwen3-Coder 在 Agentic Coding、Browser-Use 和 Tool-Use 等多个“代理式编程”任务上，都实现了开源模型的 SOTA（State of the art，最优）表现，甚至在部分场景上对标 Claude Sonnet-4。

和 Qwen3-Coder 模型配套的，还有一整套命令行工具。这意味着它不仅能“在线使用”，还可以直接“接入开发环境”，上手即用。

Qwen Code（命令行工具）：基于 Gemini CLI 改造而来（从上面的截图也能看出来），支持 OpenAI SDK 接入，安装门槛低、适配好；
Claude Code：支持通过阿里云百炼 API 适配 Claude Code 工具，原地切换后端模型；
Cline：可在 Cline 工具中通过 DashScope 接入 Qwen3-Coder。

这里不得不提醒一下各位小可爱，如果你是通过阿里云百炼使用 Qwen3-Coder 的 API，需要多加注意它的模型命名和阶梯定价规则。

目前最新的模型版本是 qwen3-coder-plus-2025-07-22，而常见的 API 名称 qwen3-coder-plus 实际上也是指向这个 0722 版本。但区别在于，只有 qwen3-coder-plus 这个别名启用了限时折扣，而直接用全名的 0722 版本则是按原价收费。

同时，阶梯定价意味着随着你聊的越来越多，上下文长度会越来越长（上下文累积），费用也会越来越高。举个极端的例子，256K-1M 的成本能达到 20 元/百万输入 tokens，200 元/百万输出 tokens（原价，人民币）。

一句话总结：越聊越贵。

结语

表面平静，实则暗流汹涌。

国产大模型的竞争，正在悄悄提速。

从 Kimi K2 的突然登顶，到阿里 Qwen 的快速反击，再到像 Qwen3-Coder 这样更偏工程落地的新路线，一个明显的信号是：

开源模型不再只是跑分，而是真正在往“能用”、“好用”靠近。

这或许，才是开源模型真正的下一步。

我是木易，一个专注AI领域的技术产品经理，国内Top2本科+美国Top10 CS硕士。

相信AI是普通人的“外挂”，致力于分享AI全维度知识。这里有最新的AI科普、工具测评、效率秘籍与行业洞察。

欢迎关注“AI信息Gap”，用AI为你的未来加速。

（文：AI信息Gap）

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

01｜Qwen3-235B-A22B-Instruct-2507

02｜Qwen3-Coder

结语

发表评论 取消回复

发表评论取消回复