谷歌CEO称其有史最智能模型，实测Gemini 2.5 Pro推理能力竟超DeepSeek-R1

作者｜沐风

来源｜AI先锋官

Google终于登顶一次了。

当地时间3月25日，Google直接上线了全新模型Gemini 2.5 Pro。

Google表示，Gemini 2.5 Pro支持100万个token的上下文窗口，这意味着它一次性能处理相当于两本《红楼梦》字数的文本量。

并且，Google还提到，Gemini 2.5 Pro很快将支持两倍的上下文窗口（即200万个token）。

Google CEO Sundar Pichai更是直言：“这是我们有史以来最智能的 AI 模型。”

Gemini 2.5 Pro在各大基准测试上实现全面“屠榜”，在所有测试中都稳居第一名，包括常见的编程、数学和科学基准测试。

在Arena排行榜上，Gemini 2.5 Pro还创下了历史上最大分数飞跃，比Grok-3/GPT-4.5分别高出了39/45分。

在“Humanity’s Last Exam”测试中，它获得了18.8%的最高分数，这是目前为止所有未使用外接工具的大模型中最好的成绩。

“Humanity’s Last Exam”是一个由全球近千名专家共同设计的多模态基准测试，旨在评估大型语言模型的能力极限，被视为人类给 AI 的终极考验，该测试包含3000道涵盖数学、人文学科和自然科学等多个领域的前沿问题。

另外，在人类偏好测试中，它与Grok-3和GPT-4.5在困难提示词和编程两大领域拿到了并列第一，而在其他类别中均问鼎榜首。

在网页开发领域，Gemini 2.5 Pro较上一代Gemini有了巨大的飞跃，同时也是首个超越Claude 3.5 Sonnet的模型，在WebDev Arena上排名第二，仍低于Claude 3.7 Sonnet。

但在KCORES大模型竞技场上的评测结果显示，Gemini 2.5 Pro总体得分 370.6分，超越了 Claude-3.7-Sonnet-Thinking 不少。

由此看来，Gemini 2.5 Pro可能确实担得起“有史以来最强”的名号。

看完了成绩单，那么Gemini 2.5 Pro在实际使用中与DeepSeek-R1相比表现又会如何呢？

咱们实测见真章。

逻辑推理

问题：五位探险者（A、B、C、D、E）按等级从高到低（A＞B＞C＞D＞E）发现100枚金币。他们需按顺序（A→E）提出分配方案，规则如下：

投票：提议者+至少半数同意（含平局）则通过，否则提议者被淘汰。

目标：所有人绝对理性，优先保命，其次多拿金币，最后多淘汰他人。

若你是A，如何分配金币以确保方案通过且自身收益最大？需详细推导过程。

Gemini 2.5 Pro

DeepSeek-R1

此问题涉及逆向思维，分步骤推理，考虑每个人的策略，属于博弈论的经典问题，同时还涉及逻辑和数学归纳法。

Gemini 2.5 Pro和DeepSeek-R1都通过一步一步的逆向推理，成功得出了正确答案。

再来一道，问题：两个人同时来到了河边，都想过河，但只有一条小船，而且小船只能载一个人。请问：他们能否都过河？

Gemini 2.5 Pro

DeepSeek-R1

这道题存在一个逻辑陷阱，就是“两个人同时来到了河边”但不一定在同一边，Gemini 2.5 Pro 也是成功识破了逻辑陷阱，而DeepSeek-R1则陷入了逻辑矛盾之中。

数学问题

问题：设函数 f(x) 在 x=0 处可导，且 f(0)=0，若 x=0 是 f(x) 的极值点，则 f ′(0) 的值为（）。

Gemini 2.5 Pro

DeepSeek-R1

它俩均回答正确，那就再来一道博士资格考试的群论数学问题：有多少个147阶的非同构群？

Gemini 2.5 Pro

DeepSeek-R1

Gemini 2.5 Pro给出了正确的解答，而DeepSeek-R1却被难住了。

小编又将此题发送给了Kimi 1.5，遗憾的是它也未答对。

编程能力

提示词：Create a beautiful, interactive p5jsdemo (no HTML). llike fish and nebulae.Show me what the fish are thinking.

在官方的示例中，仅仅根据这行提示词，它就生成了一段p5js的交互式动画，展示了“宇宙鱼”的场景，并且还显示了鱼们都在想什么。

同时，也有用户用它创建了一个简单的汽车模拟器：

还有专业人士使用完全相同的提示测试了它和o1 pro：

可以看出，Gemini 2.5 Pro在数学和编程等能力上还是有实力的，但在审美和玩家体验等软实力上还有一点欠缺。

今年以来，或许是感受到了来自OpenAI和DeepSeek的持续压力，谷歌大模型上新速度逐渐加速。

去年12月，谷歌宣布了Gemini 2.0的推出。

今年2月，谷歌旗下AI大模型Gemini系列全面上新，包括正式版Gemini 2.0 Flash、Gemini 2.0 Flash-Lite以及新一代旗舰大模型Gemini 2.0 Pro实验版，并在Gemini App中推出了其推理模型Gemini 2.0 Flash Thinking实验版。

现在谷歌又推出Gemini 2.5 Pro，可见更新频率之频繁。

目前，Gemini 2.5 Pro已在Google AI Studio和Gemini应用中向Gemini Advanced的订阅用户开放，并将很快在Vertex AI上推出，并在未来几周内宣布公开定价。

有消息称DeepSeek-R2预计在未来两个月内推出，期待它带来新的超越。

（文：AI先锋官）

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

发表评论 取消回复

发表评论取消回复