
高光点
我们介绍了更新版本的Qwen3-235B-A22B 非思考模式,命名为Qwen3-235B-A22B-Instruct-2507,其主要增强功能如下:
- 在通用能力方面有显著改进,包括指令遵循、逻辑推理、文本理解、数学、科学、编程和工具使用。
- 在多语言长尾知识覆盖方面有显著提升。
- 明显更好的对齐与用户的偏好,特别是在主观和开放性任务中,能够提供更有帮助的回复并生成更高质量的文本。
- 增强功能在256K 长上下文理解中。
模型概述
Qwen3-235B-A22B-Instruct-2507 具有以下特点:
- 类型: 因果语言模型
- 训练阶段: 预训练 & 后训练
- 参数数量: 总共 235B,激活 22B
- 非嵌入参数数量: 234B
- 层数量: 94
- 注意力头数量(GQA): 64 个用于查询,4 个用于键值
- 专家数量: 128
- 激活的专家数量: 8
-
Context Length: 262,144 natively.
注意:该模型仅支持非思考模式,并不会在其输出中生成<think></think>
块。同时,指定enable_thinking=False
已不再需要。
有关更多信息,请参阅我们的博客、GitHub和文档。
性能
|
|
|
Claude Opus 4 非思考 |
|
Qwen3-235B-A22B 不思考 |
|
---|---|---|---|---|---|---|
知识 |
|
|
|
|
|
|
|
|
|
86.6 |
|
|
|
|
|
|
94.2 |
|
|
|
|
|
|
|
|
|
77.5 |
|
|
|
|
|
|
62.6 |
|
|
|
|
|
|
54.3 |
|
|
|
|
|
|
84.3 |
推理 |
|
|
|
|
|
|
|
|
|
|
|
|
70.3 |
|
|
|
|
|
|
55.4 |
|
|
|
|
|
|
41.8 |
条纹逻辑 |
|
|
|
|
|
95.0 |
实时基准 20241125 |
|
|
|
76.4 |
|
|
编程 |
|
|
|
|
|
|
实时代码基准 v6 (25.02-25.05) |
|
|
|
|
|
51.8 |
|
|
|
88.5 |
|
|
|
多语言助手 |
|
|
70.7 |
|
|
|
对齐 |
|
|
|
|
|
|
|
|
|
|
89.8 |
|
|
竞技场-硬核 v2* |
|
|
|
|
|
79.2 |
创意写作 v3 |
|
|
|
88.1 |
|
|
写作台 |
|
|
|
86.2 |
|
|
代理 |
|
|
|
|
|
|
|
|
|
|
|
|
70.9 |
TAU-零售 |
|
|
81.4 |
|
|
|
TAU 航空 |
|
|
59.6 |
|
|
|
多语言主义 |
|
|
|
|
|
|
多 IF |
|
|
|
|
|
77.5 |
|
|
|
|
|
|
79.4 |
|
|
82.1 |
|
|
|
|
|
|
|
|
|
|
50.2 |
为了可重复性,我们报告了由 GPT-4.1 评估的胜率。
结果是使用 GPT-4o-20241120 生成的,因为无法访问 GPT-4o-0327 的原生函数调用 API。
快速入门
Qwen3-MoE 的代码已包含在最新的 HF 镜像transformers
中,我们建议您使用transformers
的最新版本。
使用 transformers<4.51.0
,您将遇到以下错误:
KeyError: 'qwen3_moe'
以下包含一个代码片段,说明如何根据给定的输入生成内容。
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/Qwen3-235B-A22B-Instruct-2507"
# load the tokenizer and the model
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
# prepare the model input
prompt = "Give me a short introduction to large language model."
messages = [
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True,
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
# conduct text completion
generated_ids = model.generate(
**model_inputs,
max_new_tokens=16384
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()
content = tokenizer.decode(output_ids, skip_special_tokens=True)
print("content:", content)
对于部署,您可以使用 sglang>=0.4.6.post1
或 vllm>=0.8.5
来创建一个与 OpenAI 兼容的 API 端点:
-
SGLang: python -m sglang.launch_server --model-path Qwen/Qwen3-235B-A22B-Instruct-2507 --tp 8 --context-length 262144
-
vLLM: vllm serve Qwen/Qwen3-235B-A22B-Instruct-2507 --tensor-parallel-size 8 --max-model-len 262144
注意:如果遇到内存溢出(OOM)问题,请考虑将上下文长度减少到较小的值,例如32,768
。
对于本地使用,Ollama、LMStudio、MLX-LM、llama.cpp 和 KTransformers 等应用程序也已支持 Qwen3。
Agentic Use
Qwen3 在工具调用能力方面表现出色。我们推荐使用 Qwen-Agent 来充分利用 Qwen3 的代理能力。Qwen-Agent 内部封装了工具调用模板和解析器,大大降低了编码复杂性。
要定义可用的工具,您可以使用 MCP 配置文件、使用 Qwen-Agent 内置的工具,或者自行集成其他工具。
from qwen_agent.agents import Assistant
# Define LLM
llm_cfg = {
'model': 'Qwen3-235B-A22B-Instruct-2507',
# Use a custom endpoint compatible with OpenAI API:
'model_server': 'http://localhost:8000/v1', # api_base
'api_key': 'EMPTY',
}
# Define Tools
tools = [
{'mcpServers': { # You can specify the MCP configuration file
'time': {
'command': 'uvx',
'args': ['mcp-server-time', '--local-timezone=Asia/Shanghai']
},
"fetch": {
"command": "uvx",
"args": ["mcp-server-fetch"]
}
}
},
'code_interpreter', # Built-in tools
]
# Define Agent
bot = Assistant(llm=llm_cfg, function_list=tools)
# Streaming generation
messages = [{'role': 'user', 'content': 'https://qwenlm.github.io/blog/ Introduce the latest developments of Qwen'}]
for responses in bot.run(messages=messages):
pass
print(responses)
最佳实践
为了实现最佳性能,我们建议设置如下:
-
采样参数:
- 我们建议使用
Temperature=0.7
,TopP=0.8
,TopK=20
,和MinP=0
。 - 对于支持的框架,您可以将
presence_penalty
参数调整为 0 到 2 之间的值以减少无尽的重复。然而,使用较高的值可能会偶尔导致语言混杂并轻微降低模型性能。 -
适当的输出长度:我们建议大多数查询使用 16,384 个标记的输出长度,这足以用于指令模型。
-
标准化输出格式: 我们建议在基准测试时使用提示来标准化模型输出。
- 数学问题: 在提示中包含“请逐步推理,并将最终答案放在\boxed{}中。”
- 多项选择题: 在提示中添加以下 JSON 结构以标准化响应:“请在
answer
字段中仅显示选择的字母,例如“answer”: “C”
。”
引用
如果觉得我们的工作有所帮助,请随时引用我们。
@misc{qwen3technicalreport,
title={Qwen3 Technical Report},
author={Qwen Team},
year={2025},
eprint={2505.09388},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2505.09388},
}
(文:路过银河AI)