智谱 Z1:首款“瞬时模型”发布

 

人眨了一下眼 —— 约 0.3 秒

大概是刘备眨眼的时间

东西从茶几上落下 —— 约 0.3 秒

大概是筷子落下的时间

为了严谨,我真的去测算了

从 0.5 米处落下,到地面差不多 0.3s

然后,视线从键盘移到屏幕 —— 0.3 秒,Z1 已刷屏了回答

也大概是 Z1-AirX 刷屏的时间

当快到这个程度,人是反应不过来的。 

这,就是瞬时模型

首款“瞬时模型”

0.3 秒,是神经反射所需时间,也是人的「瞬间」

Z1-AirX 是首个国内大模型厂商提供的“瞬时模型”,这里有两个指标:

  • • 在 0.3 秒内,完成首响应,相当于一次神经反射或眨眼的时间。
  • • 在 0.3 秒内,能够完成 50+ 个汉字生成,等效于一条完整回复、一段语音内容,或一则朋友圈的长度。
  • • 非过度压缩的极小模型(比如 1.5B)

于是,我们见证了一个改变:从“提出问题—等待回应”的线性节奏,变成输入与输出同步发生的即时对话。

马冬梅!

速度改变一切


R1 vs Z1 速度对比

正常情况下,AI 的响应时间通常在 1~3 秒之间,生成速度约为 20 tokens/s。这意味着,用户在输入结束后,会经历短暂的等待期,模型随后才开始输出。这种延迟在多轮交互中被频繁放大,造成明显的思维中断。

而 Z1-AirX,改变了这种交互:

  • • 延迟低于感知阈值。用户在完成输入的瞬间几乎同步获得反馈,交互节奏从“输入后等待”转变为“输入即响应”。
  • • 生成即时显现。输出不再是可感知的“逐步生成”,而是直接呈现为完整段落,极大减少了等待中的认知空白。
  • • 对话节奏一致。语言回合之间无明显停顿,避免语境断裂。
大模型测速」中,榜首被狠狠刷新了

⬆️上面这个图,是我去年测的(当时air就遥遥领先):

大模型真实速度一览(附:测试脚本)


另一角度,速度的变化扩展了大模型的应用范围,在实时任务中尤其明显:

  • • 教育场景下,学生注意力有限。问答、批改与反馈等任务中,需要在学生注意力窗口期中给出响应:0.3 秒以内的反馈,让模型有了在课堂和练习中直接介入的可能。
  • • 客服场景下,低延迟、告诉生成让用户感觉到“真实感”。在对话中保持低延迟和高吞吐,有助于稳定交互节奏,避免因卡顿造成用户退出或任务中断。
  • • 文案协作、脚本生成中,告诉让人不被打断。减少等待感,流畅撰写。
  • • 在 Agent 调用中,快速完成意图识别、工具调用和结果聚合。让 agent 走入工业成为可能。

这些场景下,以往以来特定模型或特殊优化。而 Z1-AirX 带来了另一种思路:只要速度够快,就能跨越边界。

现已可用

BigModel 首页

Z1 今天已可以调用,通过智谱开放平台 bigmodel.cn 有三个版本:

  • Z1-AirX(极速版)
    速度达 200 tokens/s,5 元 / M token
  • Z1-Air(高性价比版)
  • 约 50 tokens/s ,0.5 元 / M token
  • Z1-Flash(免费版)
    免费

Instant is All You Need

称 Z1-AirX 为“瞬时模型”,是因为它突破了“大模型必须等待”的范式,让 AI 节奏真正接近人类。

可以期待,更多模型会跨越这条临界线:真正的智能,不该让人等待

 

(文:赛博禅心)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往