一手实测让马斯克睡帐篷的Grok4,DeepSeekR2又多一位可笑的对手

“Grok”一词不是马斯克原创,而是源于科幻作家罗伯特·海因莱因 (Robert A. Heinlein) 1961年的经典小说《异乡异客》(Stranger in a Strange Land)。在小说中,“Grok”是一个火星词汇,其含义远超“理解”,它代表着一种深刻、直观、感同身受的领悟,一种与被理解对象融为一体的境界。

放弃去火星的马斯克连时间观念也丢了。

如果说AI界要有自己的脱口秀的话,我投马斯克这次Grok4发布会一票,

整整推迟一小时,我开始思考午饭吃什么了。

来都来了,还是一起来看看这场时长还没推迟的时间长、背景全黑、全员黑衣服、全场主要靠运动鞋打光、发布前24小时还在测试性能,


发布前一周马斯克还专门去XAI搭帐篷盯着开发的、


得分豪华到把所有模型按在地上打的、


(别一口气读完,我差点上不来气。)

Grok4发布会吧!


我会先用一小段篇幅快速煸干发布会的水分,以及我充了215块/月的Grok4基础版在各种任务下真实表现。

还有就是做了一个表格,把这次没放出来的案例整理进去了,大家有啥想跑的case也贴上去,我定时跑,冤大头能救一个是一个。公众号回复“grok”就ok啦!

Here we go!


 01|Grok4纸面实力 

这次Grok更新了两个新的订阅套餐,对应Grok4和Grok4 Heavy,平均价格比隔壁OpenAI上涨了50%。我充的Grok4还没有 DeepSearch(深度搜索)和 Deeper search(深深度搜索)的功能。


功能不多,上下文也不咋样。

Grok4的上下文是130k,Heavy版本是256k,只有隔壁Gemini 2.5 pro的13%到25%。

那么贵的话表现不好的话我包喷的。

还有就是哪个天才把摄像头对准演示那哥们的电脑的,四五个案例只有两个完整跑出来了,其他都是看的中间结果,等待过程还要跟马斯克尬聊,感觉这哥们都要碎了。



从Grok3训练到Grok4,计算量增加了10倍,


有工具的Grok4表现能提升12%

有工具还能多思考的Grok4还能提升10%,



高中数学竞赛数据集 AIME25 直接刷到100%了,离谱。。。比Claude4 Opus高了25个点。



在视觉推理测试机 ARC-AGI 也刷到了 SOTA


在 Vending-Bench 商业模拟中,Grok 4 通过高销量+高利润率策略,将平均净资产提高到第二名的两倍以上,比人工操作、Claude、Gemini、o3都要好。


所以代码?

我那么多代码评测集被你马斯克吞了吗?

总结一下放出来的评分集中在数学、物理、长上下文(这个就搞笑的)、自然科学、人文科学和视觉推理。

是真的一点代码都没提到,发布会演示的时候唯二成功的还是代码和数学案例。。。


 02|Grok4真实实力 

平时用 Claude4 都习惯了,我都不带测贪吃蛇了,上来先手一个3D小猫,

使用three.js 生成一个由立方体组成的猫咪,然后猫咪在一个平面上原地奔跑的动画,所有代码放在一个html文件里面


很好,四只腿一起跳很有精神。。。

不然试试看做个网页?


只有基础联网搜索的Grok4连自己发布会的信息都没整理全。

我不信!一定还有别的方法用回这215块。

如果我不给Grok4任何限制,就让它出一个炫酷的网页给我呢?


现在知道为什么后续八月第一个要发布会Grok4的代码模型版本了,

Grok4是真不会写代码。。。

那要不测测看多模态能力?毕竟视觉推理里Grok4也是“第一”了,

好消息,图像生成输出很快,

坏消息,图像质量倒退两年,


说不定是可以做图像推理呢?

卡擦一张图就把所有要买的东西算好账了,卡擦一张图就把数量算好了,


很好,也答错了。这里面确实有几个是重叠的,所以我决定降低难度。

我没有去掉图像的水印,想说给Grok4买个破绽。


泪目了,终于答对了,还可以根据水印去找图片的来源了,但这个任务我已经有o3了。Grok4你没用了。

有没有充了Grok Heavy的朋友分享一下自己的案例,我严重怀疑Grok4刷分了,


 03|还有啥?

被马斯克偷走215块的我尝试找找发布会没有的信息,

看看能不能回回本,

这次出了一组新的声音, Sal 和 Eve。估计也是只支持英文的了。没用,pass。

Grok4上线支持了API,每 100 万个tokens是 21-107。没有价格优势,pass。



 写在最后 

太失望了,Grok系列本来还是相当不错的,

从OpenRouter统计的数据里看,在编程领域上Grok-3-Beta的使用量能排到第六,

现在看来有可能是因为前段时间频繁送的1000块API做出来的数据错觉,


Grok3被马斯克称为“地球上最聪明的人工智能”,Grok4更是带着“重写全人类的在线知识库”使命诞生(马斯克自己说的不是我说的),

现在看来时间太早、制作太赶、

赶紧把Grok4回炉重造一下吧,

Grok3我用起来都没感觉那么烂。

时间我都给你安排好了,


你就在Coding Model发布的那天,

宣布推出Grok4.1,然后说Grok4运算成本太高,后面只在API出现,

然后把这个模型伪装成Grok4-mini,

再把套餐价格跟OpenAI拉平。

这样还能回点口碑。

谢谢就不用了都是从奥特曼那学来的,

记得把我215块退给我就行了。。。

@ 作者 / 卡尔@ 动手学AI / learnprompt.pro


(文:卡尔的AI沃茨)

发表评论