Grok4 发布:全整理

 

长话短说
马斯克发布了 Grok4,推理模型,对标 o3

Grok 4 需要订阅才能使用,$30/月起

SuperGrok 订阅费用

网站在 https://grok.com/

下面是本次发布会的具体,整理如下

Grok 发布会实录

原视频在这(下面有地址)

https://x.com/xai/status/1943158495588815072

Grok 4 介绍 (5:22 – 7:51)

5:22 Elon Musk 登台,发布会正式开始。

马斯克表示 Grok 4 是“世界上最智能的 AI”,并称其进化速度“远超任何人类”。Grok 4 具备卓越的推理能力,即使面对从未见过的考题,也能在 SAT 和 GRE 等高难度考试中取得近乎完美的成绩。

本来是 11 点发布,生生鸽到了 12 点多

性能的指数级增长

马斯克表示:Grok 系列展现出“荒谬的进步速度”(Ludicrous rate of progress)。从 Grok 2 到 Grok 4,每一代模型的训练计算量增加约 10 倍,总增幅达 100 倍。

除了预训练计算,还大量投入在推理(RL compute)计算上,以增强思考与解决问题的能力。

在推理上,发力了

基准测试表现:“人类最终考试”及其他

介绍名为“人类最终考试”(Humanity’s Last Exam)的超高难度基准测试。该测试包含 2500 个专家级问题,涵盖上百个学科。

Humanity’s Last Exam

据称,没有任何人类能在所有领域达到博士后水平,但 Grok 4 实现了这一点。图表结果显示,Grok 4 及 Grok 4 Heavy 在 GPQA、AIME25、HMMT 等多个顶级基准测试中,表现全面超越所有竞争对手,包括 Claude Opus 4 与 Gemini 2.5 Pro。

各种测试结果

功能演示

发布中,做了一些 Grok 4 实际应用能力演示

现实世界预测
在预测平台 Polymarket 上分析 2025 年 MLB 世界大赛冠军,Grok 4 不仅浏览了赔率,还结合 FanGraphs 的数据计算出自己的概率,识别出市场赔率与实际概率之间的差异,找到了“Alpha”和“Edge”

World Series Champion 2025

多模态与主观理解
在 X 平台上找出“xAI 员工最古怪的头像”,这表明 Grok 4 能够理解“古怪”这样的主观概念,并搜索和分析图片

emmmm 很抽象的头像

信息整合与摘要
“人类最终考试”分数变化的 X 帖子时间线,展示了其从社交媒体上整合信息、提取关键事件并按时间排序的能力

又是人类最终考试…

代码与可视化生成
根据一个物理学提示,Grok 4 生成了一个关于两个黑洞碰撞并产生引力波的 HTML 动画,展示了其将复杂科学概念转化为代码和动态可视化的能力

生成的动画很炫酷

语音模式与新声音 

Grok 4 语音模式迎来重大改进:端到端延迟减半,对话更流畅。发布五种全新的、极具表现力的声音,包括史诗感的“Sal”和带有丰富情感的英音“Eve”。

现场演示中,Eve 能以温柔语调安抚提问者,并即兴创作关于健怡可乐的歌剧,展现了其出色的自然度和情感表达。

当场整活:4o vs grok4

SuperGrok Heavy 

宣布推出“SuperGrok Heavy”付费等级(每月300美元)。该版本允许用户调用 Grok 4 Heavy,它会像一个“学习小组”一样,并行启动多个智能体(agents)共同解决复杂问题,通过比较和筛选,最终得出最佳答案。

300刀/月

一些新锐 Bench Mark

在 ARC-AGI (之前奥特曼介绍的)榜单中,Grok 4 在 v1 中超过 o3,在 v2 中两倍于 o3。(注意,比不上 o3-pro)

介绍

我之前还写了一份有关 ARC-AGI 的介绍

OpenAI o3 详解:并非 AGI,比 o1 贵 1000倍(另附内测申请)


另一个榜单是商业场景模拟:“自动售货机基准测试”(Vending-Bench)。在这个测试中,AI 需要管理库存、联系供应商、设定价格等。

结果显示,Grok 4 的表现远超其他前沿模型,其创造的净值是第二名(Claude Opus 4)的两倍以上,展现了其在复杂、长周期任务中的战略规划和执行能力。

Vending-Bench:卖货模拟器

未来展望与路线图 (45:32 – 50:20)

公布未来产品路线图:

  • • 八月:推出专用的编码模型。
  • • 九月:推出多模态智能体。
  • • 十月:推出视频生成模型。
接下来的发布

预测:AI 将在今年晚些时候或明年发现真正有用的新技术,甚至可能在 1-2 年内发现新的物理学原理。

总结与结语 (50:20 – 53:35)

发布会以强调 AI 安全最重要的是“最大限度地寻求真理”作为核心思想。我们正处在“智能大爆炸”的开端,这是历史上最激动人心的时刻。

最后以《银河系漫游指南》中的经典名句“再会,谢谢所有的鱼”(So long, and thanks for all the fish)结束。

So long, and thanks for all the fish

 


(文:赛博禅心)

发表评论