传言OpenAI 即将放出两款开源模型

OpenAI 开源模型意外泄露!

刚刚,有人在 Hugging Face 上发现了 OpenAI 悄悄上传的开源模型仓库,虽然很快就被删除了,但还是有眼疾手快的网友抢先保存了配置文件和相关信息。

这次泄露的主角叫做 gpt-oss-120b,从命名就能看出这是一个 120B 参数的模型。

更有意思的是,这似乎是一个模型家族,除了 120B 的大模型,还有一个 20B 的版本。

Jimmy Apples(@apples_jimmy) 第一时间发现并保存了这些信息:

我在他们上传后一分钟就发现了 OAI 的 OS 模型,并在删除前保存了配置和其他内容。这是个 OS 模型,即将推出,感觉有点像剧透了一个惊喜。

随后他公开了模型的配置信息:

{
  "num_hidden_layers"36,
"num_experts"128,
"experts_per_token"4,
"vocab_size"201088,
"hidden_size"2880,
"intermediate_size"2880,
"swiglu_limit"7.0,
"head_dim"64,
"num_attention_heads"64,
"num_key_value_heads"8,
"sliding_window"128,
"initial_context_length"4096,
"rope_theta"150000,
"rope_scaling_factor"32.0,
"rope_ntk_alpha"1,
"rope_ntk_beta"32
}

从配置文件可以看出,这是一个 MoE(混合专家)架构的模型,拥有 128 个专家,每个 token 激活 4 个专家。

初始上下文长度为 4096,但通过 RoPE scaling 可以扩展到更长。

Mark Kretschmann(@mark_k) 也确认了这个发现:

OpenAI 开源模型找到了!名称:gpt-oss-120b,大小:120b,发布日期:今天!

不过让人怀疑的是,文件大小引起了一些讨论。

Harsh Nigam(@nigharsh) 提出疑问:

120b 模型只有约 65GB?感觉有些不对劲。

对此,Blaž Bizjak(@bizjakblaz93) 解释道:

不,我认为那是 VRAM 使用量。文件大小通常是每 1B 参数约 1GB。

zipperlein(@iamzipperlein) 则推测:

约 65.3GB 可能是 FP4/AWQ 量化版本。

Luke Chaj(@luke_chaj) 询问配置文件中是否有关于 MoE 架构和激活专家数的信息,而 Jimmy 随后公开的配置正好回答了这个问题。

Tibor Blaho(@btibor91) 分享了他的网页监控工具截图:

我就知道有事情要发生,早上醒来就看到了这些警报。

关于模型的用途,有人猜测这可能是为了在消费级硬件甚至手机上运行而设计的,毕竟Sam Altman 先前曾有过关于端侧模型的问卷。

Shman(@TheShmanuel) 问道:

这应该能在手机上运行吗?

InfiniteHexx(@InfiniteHexx) 则调侃道:

Dario 刚好很方便地贬低了开源模型,不是吗?

这次意外泄露让 AI 社区既兴奋又好奇。

prosight(@thgisorp) 分析指出:

我计算了一下,OpenRouter 上的 OpenAI 模型似乎不是这个模型,因为上下文长度与 Horizon Alpha 的 256K 不匹配。除非是 20B 版本……但我预期它们会共享相同的上下文大小。

虽然目前仅为传言,但可以断定的是,OpenAI 选择开源不论放出的是个什么模型,都一定会是个值得重点关注和庆祝的时刻。

但这样似有意又无意的「意外泄露」的方式,反而给这个消息增加了更多神秘色彩。

Gareth Manning(@worldteacherman) 开玩笑说:

Jimmy 毁了圣诞节。

如果 OpenAI 真的要开源这些模型,那或将是继中国一众开源力量之后的又一个重要的里程碑。

但这120B 的参数量,MoE 架构,可能的移动端部署究竟能有多重——

咱就还是谨慎吃瓜,拭目以待了。


(文:AGI Hunt)

发表评论