超越DeepSeek和Kimi K2，史上最强开源大模型发布

Kimi K2刚刚发布，就在huggingface屠榜，成为最受欢迎的开源大模型。

不过还没坐稳几天，阿里发布了新版的Qwen3，一举超过了Kimi K2和DeepSeek，成为最为强大的开源大模型（考虑到DeepSeek R2可能随时发布，该排名先截止7月22日）。

阿里在Qwen官网称：

高光点

我们介绍了更新版本的Qwen3-235B-A22B 非思考模式，命名为Qwen3-235B-A22B-Instruct-2507，其主要增强功能如下：

在通用能力方面有显著改进，包括指令遵循、逻辑推理、文本理解、数学、科学、编程和工具使用。
在多语言长尾知识覆盖方面有显著提升。
明显更好的对齐与用户的偏好，特别是在主观和开放性任务中，能够提供更有帮助的回复并生成更高质量的文本。
增强功能在256K 长上下文理解中。

模型概述

Qwen3-235B-A22B-Instruct-2507 具有以下特点：

类型: 因果语言模型
训练阶段: 预训练 & 后训练
参数数量: 总共 235B，激活 22B
非嵌入参数数量: 234B
层数量: 94
注意力头数量（GQA）: 64 个用于查询，4 个用于键值
专家数量: 128
激活的专家数量: 8
Context Length: 262,144 natively.

注意：该模型仅支持非思考模式，并不会在其输出中生成<think></think>块。同时，指定enable_thinking=False已不再需要。

有关更多信息，请参阅我们的博客、GitHub和文档。

性能

	Deepseek-V3-0324	GPT-4o-0327	Claude Opus 4 非思考	Kimi K2	Qwen3-235B-A22B 不思考	Qwen3-235B-A22B-Instruct-2507
知识
MMLU-Pro	81.2	79.8	86.6	81.1	75.2	83.0
MMLU-Redux	90.4	91.3	94.2	92.7	89.2	93.1
GPQA	68.4	66.9	74.9	75.1	62.9	77.5
SuperGPQA	57.3	51.0	56.5	57.2	48.2	62.6
SimpleQA	27.2	40.3	22.8	31.0	12.2	54.3
CSimpleQA	71.1	60.2	68.0	74.5	60.8	84.3
推理
AIME25	46.6	26.7	33.9	49.5	24.7	70.3
HMMT25	27.5	7.9	15.9	38.8	10.0	55.4
ARC-AGI	9.0	8.8	30.3	13.3	4.3	41.8
条纹逻辑	83.4	52.6	–	89.0	37.7	95.0
实时基准 20241125	66.9	63.7	74.6	76.4	62.5	75.4
编程
实时代码基准 v6 (25.02-25.05)	45.2	35.8	44.6	48.9	32.9	51.8
MultiPL-E	82.2	82.7	88.5	85.7	79.3	87.9
多语言助手	55.1	45.3	70.7	59.0	59.6	57.3
对齐
IFEval	82.3	83.9	87.4	89.8	83.2	88.7
竞技场-硬核 v2*	45.6	61.9	51.5	66.1	52.0	79.2
创意写作 v3	81.6	84.9	83.8	88.1	80.4	87.5
写作台	74.5	75.5	79.2	86.2	77.0	85.2
代理
BFCL-v3	64.7	66.5	60.1	65.2	68.0	70.9
TAU-零售	49.6	60.3#	81.4	70.7	65.2	71.3
TAU 航空	32.0	42.8#	59.6	53.5	32.0	44.0
多语言主义
多 IF	66.5	70.4	–	76.2	70.2	77.5
MMLU-ProX	75.8	76.2	–	74.5	73.2	79.4
INCLUDE	80.1	82.1	–	76.9	75.6	79.5
PolyMATH	32.2	25.5	30.0	44.8	27.0	50.2

为了可重复性，我们报告了由 GPT-4.1 评估的胜率。

结果是使用 GPT-4o-20241120 生成的，因为无法访问 GPT-4o-0327 的原生函数调用 API。

快速入门

Qwen3-MoE 的代码已包含在最新的 HF 镜像transformers中，我们建议您使用transformers的最新版本。

使用 transformers<4.51.0，您将遇到以下错误：

KeyError: 'qwen3_moe'

以下包含一个代码片段，说明如何根据给定的输入生成内容。

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-235B-A22B-Instruct-2507"

# load the tokenizer and the model
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

# prepare the model input
prompt = "Give me a short introduction to large language model."
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

# conduct text completion
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=16384
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist() 

content = tokenizer.decode(output_ids, skip_special_tokens=True)

print("content:", content)

对于部署，您可以使用 sglang>=0.4.6.post1 或 vllm>=0.8.5 来创建一个与 OpenAI 兼容的 API 端点：

SGLang:

python -m sglang.launch_server --model-path Qwen/Qwen3-235B-A22B-Instruct-2507 --tp 8 --context-length 262144

vLLM:

vllm serve Qwen/Qwen3-235B-A22B-Instruct-2507 --tensor-parallel-size 8 --max-model-len 262144

注意：如果遇到内存溢出（OOM）问题，请考虑将上下文长度减少到较小的值，例如32,768。

对于本地使用，Ollama、LMStudio、MLX-LM、llama.cpp 和 KTransformers 等应用程序也已支持 Qwen3。

Agentic Use

Qwen3 在工具调用能力方面表现出色。我们推荐使用 Qwen-Agent 来充分利用 Qwen3 的代理能力。Qwen-Agent 内部封装了工具调用模板和解析器，大大降低了编码复杂性。

要定义可用的工具，您可以使用 MCP 配置文件、使用 Qwen-Agent 内置的工具，或者自行集成其他工具。

from qwen_agent.agents import Assistant

# Define LLM
llm_cfg = {
'model': 'Qwen3-235B-A22B-Instruct-2507',

# Use a custom endpoint compatible with OpenAI API:
'model_server': 'http://localhost:8000/v1',  # api_base
'api_key': 'EMPTY',
}

# Define Tools
tools = [
    {'mcpServers': {  # You can specify the MCP configuration file
'time': {
'command': 'uvx',
'args': ['mcp-server-time', '--local-timezone=Asia/Shanghai']
            },
"fetch": {
"command": "uvx",
"args": ["mcp-server-fetch"]
            }
        }
    },
'code_interpreter',  # Built-in tools
]

# Define Agent
bot = Assistant(llm=llm_cfg, function_list=tools)

# Streaming generation
messages = [{'role': 'user', 'content': 'https://qwenlm.github.io/blog/ Introduce the latest developments of Qwen'}]
for responses in bot.run(messages=messages):
pass
print(responses)

最佳实践

为了实现最佳性能，我们建议设置如下：

采样参数:

我们建议使用Temperature=0.7，TopP=0.8，TopK=20，和MinP=0。
对于支持的框架，您可以将presence_penalty参数调整为 0 到 2 之间的值以减少无尽的重复。然而，使用较高的值可能会偶尔导致语言混杂并轻微降低模型性能。

适当的输出长度：我们建议大多数查询使用 16,384 个标记的输出长度，这足以用于指令模型。
标准化输出格式: 我们建议在基准测试时使用提示来标准化模型输出。

数学问题: 在提示中包含“请逐步推理，并将最终答案放在\boxed{}中。”
多项选择题: 在提示中添加以下 JSON 结构以标准化响应：“请在answer字段中仅显示选择的字母，例如“answer”: “C”。”

引用

如果觉得我们的工作有所帮助，请随时引用我们。

@misc{qwen3technicalreport,
      title={Qwen3 Technical Report}, 
      author={Qwen Team},
      year={2025},
      eprint={2505.09388},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2505.09388}, 
}

（文：路过银河AI）

2025 年 10 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

高光点

模型概述

性能

快速入门

Agentic Use

最佳实践

引用

发表评论 取消回复

发表评论取消回复