刚刚，马斯克发布Grok 4！全榜第一，年费飚到2万+

机器之心报道

机器之心编辑部

所有学科都是博士后水平。

酝酿良久的 xAI 下一代大模型——Grok 4 终于发布了！能力超乎我们想象。

北京时间今天中午 12 点左右，我们期待已久的 xAI 发布会终于开始，马斯克现身直播间，他上来就说：「这是世界上最好的 AI，让我们来展示一下。」

马斯克表示，Grok 4 每次都能在 SAT 考试（美国高考）中获得满分，无需事先查看题目，它也可以做到 GRE 任何学科接近满分，超过了全世界所有研究生的水平。Grok 4 最强大的地方是其推理能力，它已经实现了超越人类的推理水平。

马斯克相信，Grok 4 可以在今年内实现科学新发现。

得益于计算能力的增强、强化学习的训练，Grok 4 的推理能力相较于前代提升了 10 倍。从 Grok 2 到 Grok 4，采用的技术范式不同，分别为下一个 token 预测、预训练计算、预训练 + RL、RL 计算。

其中，Grok 2 到 Grok 3 预训练阶段的计算量提升了 10 倍，Grok 3 reasoning 首次引入了 RL 微调，带来了深度推理能力。Grok 4 reasoning 的强化学习再度提升了 10 倍的计算量，这意味着显著的推理能力提升。

另外因为调用工具能力的提升，Grok 4 进一步放大了自身智慧。因此可以在各类高难度 Benchmark 上实现远超 SOTA 的成绩。

接下来是重头戏：Grok 4 的基准测试结果。

首先是 HLE（Humanities Last Exam，人类最后的考试），包括数学、化学和逻辑学。在上周六泄露的基准测试结果中，Grok 4 在 HLE（Humanities Last Exam，人类最后考试）上的标准得分是 35%，使用推理技术后提高到 45%，但多数网友持质疑态度。

在今天的直播中，xAI 研究人员表示，以往的 SOTA 模型在使用工具（with tool）的情况下，成绩最高可以达到 41.0%。

如今，Grok 4 进一步提升了这一基准测试成绩。

具体来讲，与其他 SOTA 模型（o3、Gemini 2.5 Pro）相比，在使用工具的情况下，Grok 4 的成绩为 38.6%，Grok 4 Heavy 的成绩飙升到了 44.4%。如果让大模型在测试时花费更多时间思考，并恰当的使用更多外部工具，则 HLE 的分数还能进一步提升到 50.7%。

关于其他更多基准测试结果，包括 GPQA（研究生级别的 Google 验证问答基准测试）、AIME25（美国数学竞赛邀请赛）、LCB（Jan-May）（编程竞赛 / 在线算法竞赛）、HMMT25（高中生团队数学竞赛）和 USAMO25（美国顶级高中生数学竞赛）。从下图可以看到，Grok 4 Heavy 均取得了最新 SOTA。

相比之下，人类面对 HLE 测试也几乎答不上几个题。马斯克多遍强调：Grok 现在在所有学科都达到了博士后水平，没有例外。它没有发现新科学或是新的物理定律，但这只是一个时间问题。

「如果 Grok 在今年内没有发现实用的新科学技术，我会感觉很意外，」马斯克表示。