超越DeepSeek和Kimi K2,史上最强开源大模型发布

Kimi K2刚刚发布,就在huggingface屠榜,成为最受欢迎的开源大模型。
不过还没坐稳几天,阿里发布了新版的Qwen3,一举超过了Kimi K2和DeepSeek,成为最为强大的开源大模型(考虑到DeepSeek R2可能随时发布,该排名先截止7月22日)。
阿里在Qwen官网称:

高光点

我们介绍了更新版本的Qwen3-235B-A22B 非思考模式,命名为Qwen3-235B-A22B-Instruct-2507,其主要增强功能如下:

  • 在通用能力方面有显著改进,包括指令遵循、逻辑推理、文本理解、数学、科学、编程和工具使用
  • 多语言长尾知识覆盖方面有显著提升
  • 明显更好的对齐与用户的偏好,特别是在主观和开放性任务中,能够提供更有帮助的回复并生成更高质量的文本。
  • 增强功能256K 长上下文理解中。

模型概述

Qwen3-235B-A22B-Instruct-2507 具有以下特点:

  • 类型: 因果语言模型
  • 训练阶段: 预训练 & 后训练
  • 参数数量: 总共 235B,激活 22B
  • 非嵌入参数数量: 234B
  • 层数量: 94
  • 注意力头数量(GQA): 64 个用于查询,4 个用于键值
  • 专家数量: 128
  • 激活的专家数量: 8
  • Context Length: 262,144 natively.

注意:该模型仅支持非思考模式,并不会在其输出中生成<think></think>块。同时,指定enable_thinking=False已不再需要。

有关更多信息,请参阅我们的博客、GitHub和文档。

性能


Deepseek-V3-0324
GPT-4o-0327
Claude Opus 4 非思考
Kimi K2
Qwen3-235B-A22B 不思考
Qwen3-235B-A22B-Instruct-2507
知识






MMLU-Pro
81.2
79.8
86.6
81.1
75.2
83.0
MMLU-Redux
90.4
91.3
94.2
92.7
89.2
93.1
GPQA
68.4
66.9
74.9
75.1
62.9
77.5
SuperGPQA
57.3
51.0
56.5
57.2
48.2
62.6
SimpleQA
27.2
40.3
22.8
31.0
12.2
54.3
CSimpleQA
71.1
60.2
68.0
74.5
60.8
84.3
推理






AIME25
46.6
26.7
33.9
49.5
24.7
70.3
HMMT25
27.5
7.9
15.9
38.8
10.0
55.4
ARC-AGI
9.0
8.8
30.3
13.3
4.3
41.8
条纹逻辑
83.4
52.6
89.0
37.7
95.0
实时基准 20241125
66.9
63.7
74.6
76.4
62.5
75.4
编程






实时代码基准 v6 (25.02-25.05)
45.2
35.8
44.6
48.9
32.9
51.8
MultiPL-E
82.2
82.7
88.5
85.7
79.3
87.9
多语言助手
55.1
45.3
70.7
59.0
59.6
57.3
对齐






IFEval
82.3
83.9
87.4
89.8
83.2
88.7
竞技场-硬核 v2*
45.6
61.9
51.5
66.1
52.0
79.2
创意写作 v3
81.6
84.9
83.8
88.1
80.4
87.5
写作台
74.5
75.5
79.2
86.2
77.0
85.2
代理






BFCL-v3
64.7
66.5
60.1
65.2
68.0
70.9
TAU-零售
49.6
60.3#
81.4
70.7
65.2
71.3
TAU 航空
32.0
42.8#
59.6
53.5
32.0
44.0
多语言主义






多 IF
66.5
70.4
76.2
70.2
77.5
MMLU-ProX
75.8
76.2
74.5
73.2
79.4
INCLUDE
80.1
82.1
76.9
75.6
79.5
PolyMATH
32.2
25.5
30.0
44.8
27.0
50.2

为了可重复性,我们报告了由 GPT-4.1 评估的胜率。

结果是使用 GPT-4o-20241120 生成的,因为无法访问 GPT-4o-0327 的原生函数调用 API。

快速入门

Qwen3-MoE 的代码已包含在最新的 HF 镜像transformers中,我们建议您使用transformers的最新版本。

使用 transformers<4.51.0,您将遇到以下错误:

KeyError: 'qwen3_moe'

以下包含一个代码片段,说明如何根据给定的输入生成内容。

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-235B-A22B-Instruct-2507"

# load the tokenizer and the model
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

# prepare the model input
prompt = "Give me a short introduction to large language model."
messages = [
    {"role""user""content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

# conduct text completion
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=16384
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist() 

content = tokenizer.decode(output_ids, skip_special_tokens=True)

print("content:", content)

对于部署,您可以使用 sglang>=0.4.6.post1 或 vllm>=0.8.5 来创建一个与 OpenAI 兼容的 API 端点:

  • SGLang:

    python -m sglang.launch_server --model-path Qwen/Qwen3-235B-A22B-Instruct-2507 --tp 8 --context-length 262144

  • vLLM:

    vllm serve Qwen/Qwen3-235B-A22B-Instruct-2507 --tensor-parallel-size 8 --max-model-len 262144

注意:如果遇到内存溢出(OOM)问题,请考虑将上下文长度减少到较小的值,例如32,768

对于本地使用,Ollama、LMStudio、MLX-LM、llama.cpp 和 KTransformers 等应用程序也已支持 Qwen3。

Agentic Use

Qwen3 在工具调用能力方面表现出色。我们推荐使用 Qwen-Agent 来充分利用 Qwen3 的代理能力。Qwen-Agent 内部封装了工具调用模板和解析器,大大降低了编码复杂性。

要定义可用的工具,您可以使用 MCP 配置文件、使用 Qwen-Agent 内置的工具,或者自行集成其他工具。

from qwen_agent.agents import Assistant

# Define LLM
llm_cfg = {
'model''Qwen3-235B-A22B-Instruct-2507',

# Use a custom endpoint compatible with OpenAI API:
'model_server''http://localhost:8000/v1',  # api_base
'api_key''EMPTY',
}

# Define Tools
tools = [
    {'mcpServers': {  # You can specify the MCP configuration file
'time': {
'command''uvx',
'args': ['mcp-server-time''--local-timezone=Asia/Shanghai']
            },
"fetch": {
"command""uvx",
"args": ["mcp-server-fetch"]
            }
        }
    },
'code_interpreter',  # Built-in tools
]

# Define Agent
bot = Assistant(llm=llm_cfg, function_list=tools)

# Streaming generation
messages = [{'role''user''content''https://qwenlm.github.io/blog/ Introduce the latest developments of Qwen'}]
for responses in bot.run(messages=messages):
pass
print(responses)

最佳实践

为了实现最佳性能,我们建议设置如下:

  1. 采样参数:

    • 我们建议使用Temperature=0.7TopP=0.8TopK=20,和MinP=0
    • 对于支持的框架,您可以将presence_penalty参数调整为 0 到 2 之间的值以减少无尽的重复。然而,使用较高的值可能会偶尔导致语言混杂并轻微降低模型性能。
  2. 适当的输出长度:我们建议大多数查询使用 16,384 个标记的输出长度,这足以用于指令模型。

  3. 标准化输出格式: 我们建议在基准测试时使用提示来标准化模型输出。

    • 数学问题: 在提示中包含“请逐步推理,并将最终答案放在\boxed{}中。”
    • 多项选择题: 在提示中添加以下 JSON 结构以标准化响应:“请在answer字段中仅显示选择的字母,例如“answer”: “C”。”

引用

如果觉得我们的工作有所帮助,请随时引用我们。

@misc{qwen3technicalreport,
      title={Qwen3 Technical Report}, 
      author={Qwen Team},
      year={2025},
      eprint={2505.09388},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2505.09388}, 
}



(文:路过银河AI)

发表评论