Grok 4
发布了,惨遭骂声一片。
顶着马斯克口中“最聪明” AI 模型的光环,以及强无敌的基准测试结果,再附加 3000 美元,约 2.1 万元人民币的年费会员,Grok 4
算是把用户的“期待”拉满了。
但到底是 buff 还是 debuff,是纯“应试型”选手还是真的“博士级”智商,今天我们就来实测一波。
以下测试均在 grok.com
网页端完成,模型选择 Grok 4
标准版。
先来数学推理类。
理论上说,解题绝对是 Grok 4
的强项。毕竟,在竞赛级数学测评集 AIME 2025 中,xAI 官方给出的 Grok 4
标准版成绩可是高达 98.8%,而 300 美元/月的 Grok 4 Heavy
更是直接拿了个 100% 的满分。
于是,为了测出 Grok 4
的真实实力,我开始搜索“史上最难高考数学题”。
谷歌 AI 搜索给出的答案是 1984 年全国卷、2003 年江苏卷和 2008 年江西卷。
行,直接来。
下面这道题是 1984 年全国卷数学最后一题,考察平面几何和简单微积分,理论上说不是特别难那种。

附上正确答案。

这是 Grok 4
给出的结果。
总共思考 242 秒,约 4 分钟。虽然问题是中文,它依然用了英文回答。并且,答案完全错误。
这么长的推理时间,给出这样的答案,是不能接受的。

作为对比,相同的问题和提示词,OpenAI 的 o3
仅思考 2 分 11 秒就得出了完全正确的答案。

谷歌的 Gemini 2.5 Pro
也是,69 秒一次回答正确。
要知道,Gemini 2.5 Pro
可是免费的。这你 Grok 4
要怎么打。

为了防止 Grok 4
是因为“水土不服”导致出错,我决定再给它一次机会,
我把 1984 年全国卷数学倒数第二题,以及选择最后一题分别发给了它。
对于倒数第二题,Grok 4
直接思考了 649 秒,接近 11 分钟。依然是英文回答,这次甚至直接自动调用了联网搜索工具来进行解答。并且,回答中所有的 Latex 数学公式都没有渲染成功,可读性比较差。
正确率方面,第一、二小问的推导完全正确;但第三小问 Grok 4
擅自修改了 lg 的底数(Note: Assuming a possible typo in the denominator as lg 2),出现幻觉。

选择最后一题 Grok 4
总算是回答正确了。然而,依旧是调用了联网搜索的工具,查看思考过程,可以发现它是联网验证了一些数学公式的准确性。

接下来小测一波中文写作。
先来测试 Grok 4
的仿写能力。
模仿古龙小说的语言风格,写一篇完整的短篇武侠小说,要求用词冷峻,节奏短促,带诗意和画面感。
Grok 4
写的这篇古龙风小说质量中规中矩,确实有古龙风的“形”:字短、意冷、画面锐利;但在创意、人物塑造方面,和其他模型的表现相比感觉又差了点。
其他模型的表现可以看这篇文章:AI 写作大乱斗!GPT-4.5、o3、Claude 4、Gemini 2.5,我替你测出了谁最强!

再来测一下让 Grok 4
写网文。
写一段玄幻小说的开篇章节,男主觉醒血脉被族人轻视,要有反转感、节奏感、网络小说的“上瘾感”,字数不少于 3000 字。
Grok 4
的回答太长,就不全文截图了,感兴趣的小伙伴可以点击下面的链接查看原文。
https://grok.com/share/c2hhcmQtMg%3D%3D_580abf49-c00f-4f98-900f-07d5c71bd467
总结来看,Grok 4
的这篇网文确实有反转,但似乎整条故事线单薄了点,节奏太快。
并且,回答的结尾处 Grok 4
表示“字数统计:约4500字”,我实际验证后,整个输出仅有 2823 个汉字。

再来尝试一波 Grok 4
的“起标题”能力。
把我昨天的文章正文部分发给它,让它写几个标题,看看 Grok 4
怎么回答。
Grok 4
的回答如下。
说实话,有点小失望。Grok 4
写的 5 个标题,没有一个能直接用。标题质量个人感觉,有点一般。

再来轻度测试一下 Grok 4
的编程能力。
先来一个前端页面,经典的“天气卡片”问题,主要考察 Grok 4
的审美及前端代码能力。
这是完整提示词。
你是一位就职于苹果公司的顶级前端工程师。请创建一个包含CSS和JavaScript的HTML文件,用于生成动画天气卡片。卡片需要以不同动画效果直观展示以下天气状况:
- 风力(如:飘动的云朵、摇曳的树木或风线)
- 降雨(如:下落的雨滴、形成的水洼)
- 晴天(如:闪耀的光线、明亮的背景)
- 下雪(如:飘落的雪花、积雪效果)
所有天气卡片需要并排显示,背景采用深色设计。所有HTML、CSS和JavaScript代码都需包含在这个单一文件中。JavaScript部分需包含切换不同天气状态的功能(例如通过函数或按钮组),以演示每种天气的动画效果。
将前端显示效果优化得更精致流畅,打造出价值20元/月的精品天气应用既视感。
Grok 4
共写了 337 行代码,渲染出来的天气卡片是这样的。其他天气类型的和“Sunny”类似,毫无惊喜。

作为对比,这是 DeepSeek-V3-0324
的测试结果。

再来测试一个之前很火的“小球碰撞”问题。
用 Python 编写一个脚本,实现一个在正方形内部弹跳的黄色小球。需要确保正确处理碰撞检测,使小球始终保持在正方形内部。同时,让这个正方形缓慢旋转。要求完整实现,并确保动画效果流畅。
这是 Grok 4
的回答。
让我震惊的是,2025 年了,还有 AI 写这种明显错误的 Python 代码?语法竟然都有问题,这是有多粗心。

当我手动加上注释后,运行 Pygame 后,前 3 秒钟还挺正常的,效果也不错。
然而,3 秒钟后,黄色小球直接掉出去了,空留下一个正方形。

结语
总结一波:已无力吐槽,还是去用 Gemini 2.5 Pro
吧!
我是木易,一个专注AI领域的技术产品经理,国内Top2本科+美国Top10 CS硕士。
相信AI是普通人的“外挂”,致力于分享AI全维度知识。这里有最新的AI科普、工具测评、效率秘籍与行业洞察。
欢迎关注“AI信息Gap”,用AI为你的未来加速。
(文:AI信息Gap)