Grok 4 实测全纪录：数学、写作、编程全拉垮，马斯克最强 AI 翻车了？

Grok 4 发布了，惨遭骂声一片。

顶着马斯克口中“最聪明” AI 模型的光环，以及强无敌的基准测试结果，再附加 3000 美元，约 2.1 万元人民币的年费会员，Grok 4 算是把用户的“期待”拉满了。

但到底是 buff 还是 debuff，是纯“应试型”选手还是真的“博士级”智商，今天我们就来实测一波。

以下测试均在 grok.com 网页端完成，模型选择 Grok 4 标准版。

先来数学推理类。

理论上说，解题绝对是 Grok 4 的强项。毕竟，在竞赛级数学测评集 AIME 2025 中，xAI 官方给出的 Grok 4 标准版成绩可是高达 98.8%，而 300 美元/月的 Grok 4 Heavy 更是直接拿了个 100% 的满分。

于是，为了测出 Grok 4 的真实实力，我开始搜索“史上最难高考数学题”。

谷歌 AI 搜索给出的答案是 1984 年全国卷、2003 年江苏卷和 2008 年江西卷。

行，直接来。

下面这道题是 1984 年全国卷数学最后一题，考察平面几何和简单微积分，理论上说不是特别难那种。

附上正确答案。

这是 Grok 4 给出的结果。

总共思考 242 秒，约 4 分钟。虽然问题是中文，它依然用了英文回答。并且，答案完全错误。

这么长的推理时间，给出这样的答案，是不能接受的。

作为对比，相同的问题和提示词，OpenAI 的 o3 仅思考 2 分 11 秒就得出了完全正确的答案。

谷歌的 Gemini 2.5 Pro 也是，69 秒一次回答正确。

要知道，Gemini 2.5 Pro 可是免费的。这你 Grok 4 要怎么打。

为了防止 Grok 4 是因为“水土不服”导致出错，我决定再给它一次机会，

我把 1984 年全国卷数学倒数第二题，以及选择最后一题分别发给了它。

对于倒数第二题，Grok 4 直接思考了 649 秒，接近 11 分钟。依然是英文回答，这次甚至直接自动调用了联网搜索工具来进行解答。并且，回答中所有的 Latex 数学公式都没有渲染成功，可读性比较差。

正确率方面，第一、二小问的推导完全正确；但第三小问 Grok 4 擅自修改了 lg 的底数（Note: Assuming a possible typo in the denominator as lg 2），出现幻觉。

选择最后一题 Grok 4 总算是回答正确了。然而，依旧是调用了联网搜索的工具，查看思考过程，可以发现它是联网验证了一些数学公式的准确性。

接下来小测一波中文写作。

先来测试 Grok 4 的仿写能力。

模仿古龙小说的语言风格，写一篇完整的短篇武侠小说，要求用词冷峻，节奏短促，带诗意和画面感。

Grok 4 写的这篇古龙风小说质量中规中矩，确实有古龙风的“形”：字短、意冷、画面锐利；但在创意、人物塑造方面，和其他模型的表现相比感觉又差了点。

其他模型的表现可以看这篇文章：AI 写作大乱斗！GPT-4.5、o3、Claude 4、Gemini 2.5，我替你测出了谁最强！

再来测一下让 Grok 4 写网文。

写一段玄幻小说的开篇章节，男主觉醒血脉被族人轻视，要有反转感、节奏感、网络小说的“上瘾感”，字数不少于 3000 字。

Grok 4 的回答太长，就不全文截图了，感兴趣的小伙伴可以点击下面的链接查看原文。

https://grok.com/share/c2hhcmQtMg%3D%3D_580abf49-c00f-4f98-900f-07d5c71bd467

总结来看，Grok 4 的这篇网文确实有反转，但似乎整条故事线单薄了点，节奏太快。

并且，回答的结尾处 Grok 4 表示“字数统计：约4500字”，我实际验证后，整个输出仅有 2823 个汉字。

再来尝试一波 Grok 4 的“起标题”能力。

把我昨天的文章正文部分发给它，让它写几个标题，看看 Grok 4 怎么回答。

Grok 4 的回答如下。

说实话，有点小失望。Grok 4 写的 5 个标题，没有一个能直接用。标题质量个人感觉，有点一般。

再来轻度测试一下 Grok 4 的编程能力。

先来一个前端页面，经典的“天气卡片”问题，主要考察 Grok 4 的审美及前端代码能力。

这是完整提示词。

你是一位就职于苹果公司的顶级前端工程师。请创建一个包含CSS和JavaScript的HTML文件，用于生成动画天气卡片。卡片需要以不同动画效果直观展示以下天气状况：
- 风力（如：飘动的云朵、摇曳的树木或风线）
- 降雨（如：下落的雨滴、形成的水洼）
- 晴天（如：闪耀的光线、明亮的背景）
- 下雪（如：飘落的雪花、积雪效果）

所有天气卡片需要并排显示，背景采用深色设计。所有HTML、CSS和JavaScript代码都需包含在这个单一文件中。JavaScript部分需包含切换不同天气状态的功能（例如通过函数或按钮组），以演示每种天气的动画效果。

将前端显示效果优化得更精致流畅，打造出价值20元/月的精品天气应用既视感。

Grok 4 共写了 337 行代码，渲染出来的天气卡片是这样的。其他天气类型的和“Sunny”类似，毫无惊喜。

作为对比，这是 DeepSeek-V3-0324 的测试结果。

再来测试一个之前很火的“小球碰撞”问题。

用 Python 编写一个脚本，实现一个在正方形内部弹跳的黄色小球。需要确保正确处理碰撞检测，使小球始终保持在正方形内部。同时，让这个正方形缓慢旋转。要求完整实现，并确保动画效果流畅。

这是 Grok 4 的回答。

让我震惊的是，2025 年了，还有 AI 写这种明显错误的 Python 代码？语法竟然都有问题，这是有多粗心。

当我手动加上注释后，运行 Pygame 后，前 3 秒钟还挺正常的，效果也不错。

然而，3 秒钟后，黄色小球直接掉出去了，空留下一个正方形。

结语

总结一波：已无力吐槽，还是去用 Gemini 2.5 Pro 吧！

我是木易，一个专注AI领域的技术产品经理，国内Top2本科+美国Top10 CS硕士。

相信AI是普通人的“外挂”，致力于分享AI全维度知识。这里有最新的AI科普、工具测评、效率秘籍与行业洞察。

欢迎关注“AI信息Gap”，用AI为你的未来加速。

（文：AI信息Gap）

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

结语

发表评论 取消回复

发表评论取消回复