谷歌CEO称其有史最智能模型,实测Gemini 2.5 Pro推理能力竟超DeepSeek-R1

作者沐风

来源AI先锋官


Google终于登顶一次了。

当地时间3月25日,Google直接上线了全新模型Gemini 2.5 Pro。

Google表示,Gemini 2.5 Pro支持100万个token的上下文窗口,这意味着它一次性能处理相当于两本《红楼梦》字数的文本量。

并且,Google还提到,Gemini 2.5 Pro很快将支持两倍的上下文窗口(即200万个token)。

Google CEO Sundar Pichai更是直言:“这是我们有史以来最智能的 AI 模型。”

Gemini 2.5 Pro在各大基准测试上实现全面“屠榜”,在所有测试中都稳居第一名,包括常见的编程、数学和科学基准测试。

在Arena排行榜上,Gemini 2.5 Pro还创下了历史上最大分数飞跃,比Grok-3/GPT-4.5分别高出了39/45分。


在“Humanity’s Last Exam”测试中,它获得了18.8%的最高分数,这是目前为止所有未使用外接工具的大模型中最好的成绩。


“Humanity’s Last Exam”是一个由全球近千名专家共同设计的多模态基准测试,旨在评估大型语言模型的能力极限,被视为人类给 AI 的终极考验,该测试包含3000道涵盖数学、人文学科和自然科学等多个领域的前沿问题。

另外,在人类偏好测试中,它与Grok-3和GPT-4.5在困难提示词和编程两大领域拿到了并列第一,而在其他类别中均问鼎榜首。


在网页开发领域,Gemini 2.5 Pro较上一代Gemini有了巨大的飞跃,同时也是首个超越Claude 3.5 Sonnet的模型,在WebDev Arena上排名第二,仍低于Claude 3.7 Sonnet。


但在KCORES大模型竞技场上的评测结果显示,Gemini 2.5 Pro总体得分 370.6分,超越了 Claude-3.7-Sonnet-Thinking 不少。


由此看来,Gemini 2.5 Pro可能确实担得起“有史以来最强”的名号。

看完了成绩单,那么Gemini 2.5 Pro在实际使用中与DeepSeek-R1相比表现又会如何呢?

咱们实测见真章。

逻辑推理

问题:五位探险者(A、B、C、D、E)按等级从高到低(A>B>C>D>E)发现100枚金币。他们需按顺序(A→E)提出分配方案,规则如下:

投票:提议者+至少半数同意(含平局)则通过,否则提议者被淘汰。

目标:所有人绝对理性,优先保命,其次多拿金币,最后多淘汰他人。

若你是A,如何分配金币以确保方案通过且自身收益最大?需详细推导过程。

Gemini 2.5 Pro

DeepSeek-R1
此问题涉及逆向思维,分步骤推理,考虑每个人的策略,属于博弈论的经典问题,同时还涉及逻辑和数学归纳法。

Gemini 2.5 Pro和DeepSeek-R1都通过一步一步的逆向推理,成功得出了正确答案。

再来一道,问题:两个人同时来到了河边,都想过河,但只有一条小船,而且小船只能载一个人。请问:他们能否都过河?

Gemini 2.5 Pro

DeepSeek-R1
这道题存在一个逻辑陷阱,就是“两个人同时来到了河边”但不一定在同一边,Gemini 2.5 Pro 也是成功识破了逻辑陷阱,而DeepSeek-R1则陷入了逻辑矛盾之中

数学问题

问题:设函数 f(x) 在 x=0 处可导,且 f(0)=0,若 x=0 是 f(x) 的极值点,则 f ′(0) 的值为( )。

Gemini 2.5 Pro

DeepSeek-R1
它俩均回答正确,那就再来一道博士资格考试的群论数学问题:有多少个147阶的非同构群?

Gemini 2.5 Pro

DeepSeek-R1

Gemini 2.5 Pro给出了正确的解答,而DeepSeek-R1却被难住了。

小编又将此题发送给了Kimi 1.5,遗憾的是它也未答对。


编程能力

提示词:Create a beautiful, interactive p5jsdemo (no HTML). llike fish and nebulae.Show me what the fish are thinking.


在官方的示例中,仅仅根据这行提示词,它就生成了一段p5js的交互式动画,展示了“宇宙鱼”的场景,并且还显示了鱼们都在想什么。

同时,也有用户用它创建了一个简单的汽车模拟器:


还有专业人士使用完全相同的提示测试了它和o1 pro:


可以看出,Gemini 2.5 Pro在数学和编程等能力上还是有实力的,但在审美和玩家体验等软实力上还有一点欠缺。

今年以来,或许是感受到了来自OpenAI和DeepSeek的持续压力,谷歌大模型上新速度逐渐加速。

去年12月,谷歌宣布了Gemini 2.0的推出。

今年2月,谷歌旗下AI大模型Gemini系列全面上新,包括正式版Gemini 2.0 Flash、Gemini 2.0 Flash-Lite以及新一代旗舰大模型Gemini 2.0 Pro实验版,并在Gemini App中推出了其推理模型Gemini 2.0 Flash Thinking实验版。

现在谷歌又推出Gemini 2.5 Pro,可见更新频率之频繁。

目前,Gemini 2.5 Pro已在Google AI Studio和Gemini应用中向Gemini Advanced的订阅用户开放,并将很快在Vertex AI上推出,并在未来几周内宣布公开定价。

有消息称DeepSeek-R2预计在未来两个月内推出,期待它带来新的超越。

 

(文:AI先锋官)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往