Gemini 2.5 Flash:谁说低价模型不能硬刚Pro?
4 月,正是春暖花开的好时节。
然而,在 AI 领域,却是战火纷飞,硝烟滚滚。
当 OpenAI 在忙着发布 GPT-4.1
、o3
、o4-mini
时,谷歌也没有闲着。
4 月 18 日,谷歌悄悄扔出了一颗威力不小的“性价比炸弹”:Gemini 2.5 Flash
。

顾名思义,Gemini 2.5 Flash
是 2.0 Flash
的下一代继任者。
但比起 2.0 Flash
那个以“快”取胜的轻量模型,这次的 2.5 Flash
,保留了响应快速这个优点的同时,还拉满了性价比 —— 它省钱,但不牺牲质量。
那么,它到底怎么样?
今天就来聊聊 Gemini 2.5 Flash
。
01|Gemini 2.5 Flash 有什么不一样?
1. 混合推理机制
Gemini 2.5 Flash
最核心的一点,就是支持“可控思考” —— 你可以设定它思考的“预算”,从完全不思考(0 tokens)到深度推理(最多 24K tokens),全部可以由你掌控。

举个例子:
不思考的时候,响应飞快,成本也低得离谱(约 0.6 美元/百万 tokens)。 开启思考后,虽然成本略有上涨,但性能直接对标旗舰 Pro 模型。
模型本身还会根据任务复杂度,自动决定要不要认真想一想,不浪费资源,非常聪明。
2. 性能拉满,堪比 Pro
Gemini 2.5 Flash
虽然是 Flash 版本,但性能不输 Pro 专业版。
-
LMArena Hard Prompts
排名:第二,仅次于Gemini 2.5 Pro
-
GPQA
知识问答:在 24K 思考预算下,性能提升 6% -
LiveCodeBench
编程测试:16K 思考预算下表现最佳 -
Chatbot Arena ELO
排名:1392,超越Claude 3.7
,直逼GPT-4.5-preview
另外,在人类考试(HLE
)这种“杀疯了”的基准任务上,Gemini 2.5 Flash
拿下了 12.1% 的高分,表现非常亮眼。

3. 多模态能力:文本、图片、音频、视频统统能打
是的,标题你没有看错,2.5 Flash
连视频输入也支持。
多模态能力一直是谷歌 Gemini 模型的强项。
2.5 Flash
支持文本、图像、音频、视频输入,可以做手写题识别、梗图解读、语音信息提取等任务。
更妙的是:它支持原生代码执行、谷歌搜索集成,回答实时性问题或跑代码都不是问题。

4. 可用性强,门槛超低
-
已集成在 Google AI Studio
和Vertex AI
内 -
提供 API 接入,支持开发者部署 -
也可直接通过 Gemini
应用选择使用
同样地,在谷歌 AI Studio 中使用 Gemini 2.5 Flash
仍然是完全免费的。

用一句话总结就是:“能力强、门槛低、用得爽”。
02|测评实录
来实测一波 Gemini 2.5 Flash
的真实体验。
测试在谷歌 AI Studio 进行,打开它的推理模式,推理预算默认关闭,也就是让模型自己决定思考多深入。
先来小试牛刀一发。
编写一个五子棋小游戏,使用两个不同的 emoji 标记双方棋子。
Gemini 2.5 Flash
思考了 24 秒,整个思考过程非常快。

因为我并没有在提示词里明确规定用什么语言写这个小游戏,2.5 Flash
自动写了个 Python 的命令行小游戏,算是勉强过关吧。
找了个在线的 Python 解释器,运行起来是这样的。

接着来测试一个之前在 X 平台很火的“小球碰撞”问题。
提示词是这样的。
大致意思就是要求模型写一个 Python 脚本,实现“一个黄色小球在一个正方形区域内反弹”的动画效果,同时正方形区域在缓慢旋转。
write a python script for a bouncing yellow ball within a square, make sure to handle collision detection properly. make the square slowly rotate. implement it in python. make sure ball stays within the square
Gemini 2.5 Flash
思考了 43.8 秒,给出了下面这个结果。
整体还可以,能接受,但肯定不完美,比如处理反弹效果不够顺滑,存在小瑕疵。

附上其他模型的表现作为对比。

总结:响应速度快是最大的感受,性能和质量我觉得对得起 Gemini 2.5 Flash
的成本和定位。
单论模型性能,肯定不如 Gemini 2.5 Pro
,这是毋庸置疑的。
但如果你觉得 Gemini 2.5 Pro
在某些小任务上太过“笨重”,Gemini 2.5 Flash
会是一个不错的选择。
03|网友:性价比之王,但还没无敌
逛了一圈 X
和论坛,网友们的反馈大致分成两派。
好评派:
-
“谷歌家最具性价比的模型。” -
“代码生成和复杂推理任务中的表现不错,接近更高端的 Pro 版本。” -
“思考预算功能用起来很舒服。”

吐槽派:
-
“Gemini 网页版体验拉垮,经常卡在 loading。” -
“多模态说得好听,验证码都认不出来。”
结语
Gemini 2.5 Flash
是谷歌交出的“聪明又省钱”的答卷:在保持灵活度和速度的前提下,让开发者可以自主决定一个模型该怎么思考。
它不是最强的,但它一定是最具性价比的模型之一。
我是木易,一个专注AI领域的技术产品经理,国内Top2本科+美国Top10 CS硕士。
相信AI是普通人的“外挂”,致力于分享AI全维度知识。这里有最新的AI科普、工具测评、效率秘籍与行业洞察。
欢迎关注“AI信息Gap”,用AI为你的未来加速。
(文:AI信息Gap)