在LCB (法律常识)测试中,Grok 4 Heavy得分79.4%,Grok 4得分79.3。
在HMMT25 (高中数学竞赛)测试中,Grok 4 Heavy96.7%,Grok 4得分93.9%。
在难度更大的USAMO25 (美国数学奥赛)上,Grok 4 Heavy 也能取得61.9%的分数,反观Gemini DeepThink和Gemini 2.5 Pro的49.4% 和34.5%分,差距显著。
更夸张的是,在“人类终极考试”(Humanities Last Exam, HLE)中,Grok-4在没有任何工具辅助的情况下,得分 25.4%,使用工具后,分数则飙升至 38.6%。
而更强版本Grok 4 Heavy则是拿到了44.4%的高分,这是目前唯一触及到这一高度的模型。