跳至内容
就在刚刚,阿里正式发布全球最强开源推理模型——Qwen3-235B-A22B-Thinking-2507。
据悉,在过去三个月中,阿里 Qwen 团队持续优化 Qwen3 系列模型的思考能力,重点提升了逻辑推理、数学、科学、编程等能力,而在指令执行、工具调用、对齐能力等通用任务上也得到了显著提升。
作为一款专为「思考模式」打造的模型,Qwen3-235B-A22B-Thinking-2507 原生支持 256K 上下文处理能力,可应对更长文本、构建更深的推理链,自动启用多步推理,无需用户手动切换模式。
基准测试结果显示,这款推理模型的表现与顶级闭源模型不相上下。
其中,在知识(SuperGPQA)、编程(LiveCodeBench v6)、数学(AIME25)、人类偏好对齐(Arena-Hard v2)、创意写作(WritingBench)、多语言能力(MultilF)等核心能力上,Qwen 3 推理模型比肩 Gemini-2.5 pro、o4-mini 等闭源模型,以及超越 DeepSeek R1 等开源模型。
注意力头数(GQA 机制):Q 向量为 64 个头,KV 向量为 4 个头
最大链式思维长度(CoT):81920 tokens
定价方面,Qwen3-235B-A22B-Thinking-2507 每输入百万 token 0.7 美元,每输出百万 token 8.4 美元。
值得注意的是,这已是阿里本周开源的第三款重量级模型。
三天前发布的 Qwen3-235B-A22B-Instruct-2507(非思考版)在知识、数学、编程、Agent 能力等多个维度刷新开源模型纪录,超越包括 Claude 4(非思考版)在内的多款闭源模型。
知名 AI 研究机构 Artificial Analysis 指出,「Qwen3 是全球最智能的非思考基础模型」。
与此同时,刚开源的 Qwen3-Coder 也登顶 HuggingFace 模型总榜,在 SWE-bench(多语言)、Mind2Web、Aider-Polyglot 等编程与 Agent 任务中超越 GPT-4.1、Claude 4 等闭源模型。
据悉,借助 Qwen3-Coder,刚入行的程序员一天就能完成资深程序员一周的工作,生成一个品牌官网最快只需 5 分钟。
从基础模型、编程模型到推理模型,本周阿里用 Qwen3 系列打出一套开源「进攻组合拳」,不仅填补了国产模型在通用能力上的差距,也为开源可替代闭源这一命题,提供了最有力的现实注解。
模型能力是否领先,可通过权威评测榜单加以验证;能否真正落地应用,则取决于开发者社区的实际采纳与使用反馈。
海外知名模型 API 聚合平台 OpenRouter 数据显示,阿里 Qwen API 过去几天已突破 1000 亿Tokens,在 OpenRouter 趋势榜上包揽全球前三。
可以说,以 DeepSeek 与 Qwen 为代表的新一代国产开源模型,正在被全球开发者选择。这场开源大模型竞速,才刚刚拉开序幕。
QwenChat:chat.qwen.ai
魔搭社区:
https://www.modelscope.cn/models/Qwen/Qwen3-235B-A22B-Thinking-2507
Hugging Face:https://huggingface.co/Qwen/Qwen3-235B-A22B-Thinking-2507
WAIC 2025 APPSO 在现场,欢迎加入社群一起畅聊 AI 产品,获取#AI有用功,解锁更多 AI 新知👇
(文:APPSO)