谷歌最强模型 Deep Think 正式上线,拿奥数金牌,月费 1800!

好消息,谷歌最强模型 Gemini 2.5 Deep Think,终于正式上线了!

坏消息,暂时只向 Gemini Ultra 用户开放。

没错,就是那个拿下国际数学奥林匹克(IMO)官方金牌的 AI 模型。

全球首个,4.5 小时,解出 6 题中的 5 道,以 35 分成绩踩线摘金。

从去年银牌,到今年金牌,Gemini 的成长速度有目共睹。

而如今,这个“奥数学霸”,正式搬进了你的 Gemini App。



01|Ultra 用户的专属新玩具

从今天开始,Gemini App 正式上线 Deep Think 模式。

很强,但门槛不低:仅限 Gemini Ultra 用户。

Gemini Ultra 是谷歌在今年 I/O 大会上推出的“顶配版”订阅,月费 249.99 美元(约 1800 元),对标 ChatGPT Pro、Claude Max 和 SuperGrok Heavy。

价格贵得离谱,但确实够“全家桶”:最强的模型,最全的功能,Project Mariner、YouTube 会员和 30 TB 的谷歌网盘。

要想开启 Deep Think 模式,需要先把模型切换到 Gemini 2.5 Pro,然后在输入框下方选中“Deep Think”。

每天有固定使用额度,但支持更长、更复杂的推理输出。

划重点,目前给 Ultra 用户开放的 Deep Think 是 IMO 金牌模型的“变体”,官方说法是更快、更适合日常任务。

IMO 金牌模型只对一些数学家开放体验。

它长这样,看这图标就“霸气侧漏”。



02|“平行思考”,Deep Think 的核心武器

Deep Think 的核心武器叫 Parallel Thinking(平行思考)。

传统大模型是思维链式推理,一条路走到黑;Deep Think 的思路是:

  1. 开多个“脑洞”,同时并行探索不同解法;

  2. 互相交叉验证,剔除错误、组合优势解;

  3. 延长“思考时间”,用更多算力换更稳定的最终答案。

谷歌官方给了个形象的比喻:就像人类解难题,会先想几个方案、画草稿、推算,再决定走哪条路。

而这种机制在数学、算法设计、科研推理和复杂代码场景下,优势极大。

最典型的体现就是今年的 IMO 比赛。

  • 6 题中 5 题完美解决;

  • 4.5 小时完成官方答卷;

  • 以 35 分成绩踩线摘金,成为首个被 IMO 官方认可的 AI 金牌得主(补充:OpenAI 的金牌未经过 IMO 官方认证)。

谷歌官方还特意强调,Deep Think 全程用自然语言解题,中途不会偷偷调用代码或用外部工具。

连 IMO 主席都称它的解题过程“清晰、精确”。



03|性能拉满,从数学到代码

Deep Think 不只会解奥数题,它非常擅长高难度的复杂任务。

同样的创作任务,谷歌三款模型的结果对比很明显。

  • Gemini 2.5 Flash:像小学生交作业,能用,但简单到有点“寒碜”;

  • Gemini 2.5 Pro:开始有点设计感,地形和细节丰富了一些;

  • Gemini 2.5 Deep Think:直接进阶“艺术家”,细节拉满,场景立体且生动。

从基准测试的结果来看,Deep Think 的表现就是两个字:碾压。

在不启用外部工具(tools)的前提下,它在 HLE(人类最后一考)拿下 34.8% 的最高分,直接超出 OpenAI o3 和“跑分大王” Grok 4 近 10%。

代码、数学同样夸张。AIME 2025 拿到 99.2%,几乎满分;而 IMO 2025,则是彻底的“降维打击”,把其他模型远远甩在身后。



04|Deep Think 能帮你干什么?

谷歌官方对 Deep Think 的定位很明确:它不是用来陪你闲聊的,硬核任务才是它的主场。

官方给出了几个典型应用场景。

1. 迭代设计与创意开发

如果你需要做一些复杂、分步迭代的创意工作,比如网页设计、游戏场景建模、产品原型优化,Deep Think 会像一个“多线程创意助手”,先开出几种方案,再逐步打磨到最优解。

上面那个案例中,三个版本的“像素风宝塔花园”,从 Gemini 2.5 Flash 到 Deep Think,细节和美感肉眼可见地翻倍进化。

2. 科研推理与数学发现

科研工作者是 Deep Think 的另一批核心用户。它擅长阅读复杂文献、提出猜想并推导验证,尤其是数理逻辑和公式推导。

谷歌甚至号称它有潜力帮助研究者探索数学猜想,甚至可能加速科学发现的过程。

3. 高难度算法与程序开发

对于程序员来说,Deep Think 不只会写代码,更擅长拆解问题、算法建模、权衡时间与空间复杂度,一步步逼近最优解。在 LiveCodeBench 这样的极限环境下也能交出 87.6% 的高分。



结语

ChatGPT 让 AI 成为日常生活助手。

而 Deep Think 则更面向高难度任务和专业工作流。

对于日常问答或轻量创作,Gemini Ultra 的 249.99 美元月费可能显得成本太高。

对于科研、算法开发或复杂项目设计,Deep Think 才更可能成为值回票价的投资。




我是木易,一个专注 AI 领域的技术产品经理,国内 Top2 本科 + 美国 Top10 CS 硕士。

相信 AI 是普通人的“外挂”,致力于分享 AI 全维度知识。这里有最新的 AI 科普、工具测评、效率秘籍与行业洞察。

欢迎关注“AI信息Gap”,用 AI 为你的未来加速。



(文:AI信息Gap)

发表评论