AI 看片写 App!Gemini 2.5 首创音视频+代码原生融合+视频理解 SOTA,构建案例来了~

🍹 Insight Daily 🪺

Aitrainee | 公众号:AI进修生

Hi,这里是Aitrainee,欢迎阅读本期新文章。

Google 最近更新了两款 Gemini 新模型:Gemini 2.5 Pro (05-06) 和 Gemini 2.5 Flash(04-07)。这俩货在视频理解上来了个大飞跃。

官方表示:Gemini 2.5 Pro 在关键视频理解基准上已经 SOTA (最先进水平),同等测试条件下 (相同提示词和视频帧数) 把 GPT 4.1 都给干趴下了。

不光如此,在一些高难度基准上 (比如 YouCook2 密集字幕生成和 QVHighlights 精彩瞬间检索),它甚至能跟那些专门微调过的模型掰手腕。嫌贵的,还有 Gemini 2.5 Flash 这个性价比之选。
看图说话,Gemini 2.5 Pro 这波视频理解的强悍性能:

这图一眼看过去,Gemini 2.5 Pro (05/06 版) 就是来屠榜的。管你是纯视觉轰炸 (像 EgoTempo, LVBench, Perception Test, VideoMMU, 1H-VideoQA),还是音视频加字幕全家桶套餐 (比如 VideoMME 全场景),基本都是把之前的 SOTA (主要点名 GPT 4.1) 按在地上摩擦,分数直接拉开一个身位。

就算在一些专门的硬骨头(比如 YouCook2 字幕、QVHighlights 片段检索),Gemini 2.5 Pro 也能跟对手打得有来有回,甚至小胜。

视频理解这块,Gemini 2.5 Pro 是新王登基,很难反驳。另外注意图中。有一个Kimi-k1.6。谷歌这囊括的范围还挺大。


Gemini 2.5 的大招:视频 + 代码 + 多模态,无缝衔接。

Gemini 2.5 是第一个能把音视频信息跟代码等其他数据格式无缝结合的原生多模态模型。

该说不说,谷歌在多模态模型的支持方面一直都很领先。早在其他家还没跟上的时候,它就已经在 AI Studio 中支持了除文本、图像外的音频和视频的理解与生成,让人能较早地体验到许多原生多模态的AI能力。

谷歌秀了几个让人眼前一亮的用法:

1. 把视频变成互动 App

Gemini 2.5 Pro 能把视频直接变身互动应用。比如 Google AI Studio 里的“视频转学习 App” (Video To Learning App) 这个入门项目。

给模型一个 YouTube 链接,再加段文本提示,告诉它怎么分析视频。Gemini 2.5 Pro 看完视频,直接生成一个学习应用的详细规格说明书,用来巩固视频里的核心知识点。

然后,这个规格说明书再扔回给 Gemini 2.5 Pro,它就能直接生成应用代码。下面这个“视力矫正模拟器”就是这么来的。

Gemini 2.5 Flash 也能搞出类似效果,在教育、互动内容创作这些领域,想象空间很大。

2. 用视频生成 p5.js 动画

Gemini 2.5 Pro 还能根据视频,用一个提示就生成动态的 p5.js 动画。

这功能在自动内容生成、创建易懂的视频摘要这些场景很有用。

比如,给它看 Project Astra 的视频,再加个提示:“用 p5.js 创建一个动画,展示视频里出现的不同地标。” Gemini 2.5 Pro 分析完视频,就生成了一个 p5.js 动画,按视频里的时间顺序把地标都可视化出来了。

3. 从视频里检索和描述片段

Gemini 2.5 Pro 能精准定位视频里的特定时刻,用的就是音视频线索,准确率远超之前的系统。

比如,在一个 10 分钟的谷歌云 Next ’25 开幕演讲视频里,它准确识别出了 16 个跟产品演示相关的片段,靠的就是视频里的声音和画面。

4. 时间推理 (Temporal reasoning)

有了牛逼的瞬间检索能力,Gemini 2.5 Pro 还能搞定更细致的时间推理问题,比如数数。

下面这个例子里,Gemini 成功数出来 Project Astra 视频里主角用了 17 次手机。


其实关于Gemini2.5 Pro在视频理解上的应用。我以前在知识星球聊过一些实践,是的,在这次模型更新之前就用了很久了。比如:

有些问题不是一张截图就能说清的,特别是那些涉及操作顺序、时序变化的问题。

这种时候,你可以考虑录一段操作视频,发给 Gemini 2.5 Pro。它能理解视频内容,帮助你从时序中找出关键线索。  

就像下面两张截图使用Cloudflare时遇到问题,就可以这样解决。

当然,它也支持实时流式视频对话,可以边演示边问问题(不过目前只支持英文,而且连接稳定性有待提升)。

还有使用案例2—短视频脚本分析。

其他案例。比如有特殊动态效果,滑动效果的前端组件复刻,以前我也是通过上传视频的方式,让他来写代码。

再加上官方这次更新完模型之后的案例。使用场景可以说是比较丰富了。核心就是连续序列的理解。总之也挺有效率的。

所以写写文章,传递下案例,帮助打开思路。

当然,这些案例可能有些小伙伴早就想到,并且一直在用了。


在哪用 Gemini 2.5 的视频理解能力?

Gemini 2.5 Flash 和 Pro 的视频理解功能,在 Google AI Studio、Gemini API 和 Vertex AI 里都能用。通过 Gemini API 和 Google AI Studio 还能直接处理油管视频,等于一下子能用上几十亿个视频资源。

Gemini API 现在还加了个“低”媒体分辨率参数,让 Gemini 2.5 Pro 能用 200 万 token 上下文处理大约 6 小时的视频,成本更低,视频理解性能也还不错 (比如在 VideoMME 上准确率 84.7% vs 85.2%),很多长视频理解场景都能搞定。

Google 表示:社区已经开始用这些功能搞创新应用了,期待大家玩出更多花样。

以上。

One More Thing

AI 绘画元方法:不肝提示词,文章直出封面。(端到端篇)

AI 绘画“元方法”分享,免费绘图流,掌握思维比提示词更重要。(融图篇)

本号知识星球(汇集ALL订阅频道合集和其他):

星球里可获取更多AI实践和资讯:

MCP文章,从概念到实践再到自己构建:

MCP是什么Windsurf Wave3:MCP协议让AI直接读取控制台错误,自动化网页调试不用复制粘贴了!Tab智能跳转、Turbo模式。
Cline的MCP商店来了。
MCP怎么配置、报错解决Windows下MCP报错的救星来了,1分钟教你完美解决Cursor配置问题。

MCP实践:Cursor + MCP:效率狂飙!一键克隆网站、自动调试错误,社区:每个人都在谈论MCP!

最新MCP托管平台:让Cursor秒变数据库专家,一键对接Github,开发效率暴增!

Blender + MCP 从入门到实践:安装、配置、插件、渲染与快捷键一文搞定!

比Playwright更高效!BrowserTools MCP 让Cursor直接控制当前浏览器,AI调试+SEO审计效率狂飙!

手把手教你配置BrowserTools MCP,Windows 和 Mac全流程,关键命令别忽略。

2分钟构建自己的MCP服务器,从算数到 Firecrawl MCP(手动挡 + AI档)

太简单了!Cline官方定义MCP开发流程,聊天式开发,让MCP搭建不再复杂。

🌟 知音难求,自我修炼亦艰,抓住前沿技术的机遇,与我们一起成为创新的超级个体(把握AIGC时代的个人力量)。
参考链接:
[1] https://developers.googleblog.com/en/gemini-2-5-video-understanding/

点这里👇关注我,记得标星哦~

(文:AI进修生)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往