昨天,微软在 Build 大会上刚刚甩出“Windows 子系统”和“Copilot 开源”的重磅炸弹,整个开发者圈还没从热议中缓过劲来,转眼今天凌晨,谷歌就在 I/O 大会上掏出了自己的“王炸”牌——一场 AI 盛宴,正式上演!
从凌晨 1 点开始,这场持续了 2 小时的发布会彻底印证了网友的预测:曾经占据谷歌 I/O 大会中心的 Android 系统正在“靠边站”,C 位已经留给了更具革命性的 AI。
无论是 Gemini 2.5 模型的更新、谷歌搜索的全新 AI 模式、多模态模型全面升级,还是 AI 订阅服务 Google AI Ultra,如今的谷歌显然把“AI”写进了每一个产品线的未来蓝图。那么,接下来让我们一起来看看,这场大会究竟带来了哪些值得关注的新动态?

一年发布了 10+ 个新模型、20+ 个重大 AI 产品与新功能
“我听说今天是双子座(Gemini)季节的开始,但我并不觉得这有什么特别的——毕竟在谷歌,每一天都是 Gemini 的季节。”谷歌 CEO Sundar Pichai 在开场时笑说道。
回顾上一次 I/O 大会至今,Sundar Pichai 表示谷歌已发布了十多个新模型和研究突破,并推出了 20 多个重大 AI 产品与新功能。他解释道,“我们的目标很简单:让最优秀的模型和产品尽快触达用户,因此我们正以前所未有的速度推进发布节奏。”

他指出,相比第一代 Gemini 1.0 Pro,如今的 Gemini 2.5 Pro 几乎发生了“跃迁式”变化:在 LMArena榜单上横扫各大类别、在多项基准测试中刷新纪录;在代码领域也取得巨大进展,登顶 WebArena 榜首。
与此同时,世界也在迅速响应和采用 AI。为此,Sundar Pichai 分享了一些直观数据:
● 去年同期,谷歌在产品与 API 中每月处理约 9.7 万亿个 token,而如今这一数字达到 480 万亿,一年间增长了近 50 倍。
● AI 开发者工具的采用也迎来爆发式增长:目前有超过 700 万开发者正在使用 Gemini,比去年这个时候多了五倍;此外,Gemini 在 Vertex AI 上的使用量也增加了 40 倍。
● 用户端产品同样热度高涨:Gemini 应用的月活跃用户数现已突破 4 亿,而 Gemini 2.5 Pro 更是带动了强劲的增长——使用 Gemini 应用中 2.5 Pro 模型的用户量提升了 45%。
● 在搜索业务上,谷歌也取得了可观的成果:现在,每月有超过 15 亿用户在使用 AI 概览功能,这表示“谷歌搜索是全球将生成式 AI 覆盖到最多用户的产品”。
“所有这些进展都表明,我们正在步入 AI 平台变革的新阶段。”基于此,Sundar Pichai 对未来充满期待:“数十年的研究成果正在加速变为现实,将服务于全球的每一位用户。”

围绕“从研究变为现实”这个话题,Sundar Pichai 整体介绍了三个正从研究走向现实、并已融入谷歌产品中的项目案例:Project Starline、Project Astra 以及 Project Marina。
(1)Project Starline 升级为 Google Beam,语音翻译功能也即将登陆 Google Meet
几年前,谷歌曾在 I/O 大会上公布过一个 3D 视频通话系统 Project Starline,旨在让远隔千里的人仿佛面对面交流。现在,这项技术进化为 Google Beam —— 一个以 AI 为核心的新型视频通信平台。
Google Beam 采用最先进的视频 AI 模型,可将二维视频流实时转换为逼真的三维画面。在设备背后,六个摄像头将从不同角度捕捉图像,而 AI 会将其实时融合,在 3D 显示屏上准确重现对方的影像,并实现毫米级精度的头部追踪,帧率高达 60fps,从而带来极其自然和沉浸式的对话体验。
不仅如此,谷歌也在不断提升 Google Meet 视频会议平台的沉浸式体验。为此,谷歌宣布在 Google Meet 中引入了基于 Gemini AI 的语音翻译功能,帮助打破语言障碍。这项技术可以实时翻译发言人的语音,并保留语调和面部表情,使跨语言交流更加流畅。
(2)Project Astra 落地为 Gemini Live,AI 助理能力更进一步
在此前的 I/O 大会上,谷歌还曾展示过一个特别的研究项目:Project Astra。它的目标是探索下一代通用 AI 助理的可能性,让 AI 能够理解用户所处的真实环境,成为一个真正智能的“贴身助手”——如今,这项技术已经实装到了 Gemini Live 中。
具体来说,Gemini Live 集成了 Project Astra 的关键能力,比如调用摄像头和共享屏幕,能够实现更自然、更直观的交互体验。目前,用户已经能用它做各种事情,包括面试准备、马拉松训练等等。而这一功能已面向所有 Android 用户开放,今天开始也将逐步向 iOS 用户推送。
(3)Project Mariner 进化为 Agent Mode,Agent 开始能“动手做事”了
从谷歌的视角来看,Agent 就是一个具备高级 AI 智能、并能调用各种工具、替你执行任务、但由你掌控的系统——Project Mariner 就是这类 AI Agent 的初步尝试。
去年 12 月,谷歌以研究原型的形式首次发布了 Project Mariner,当时它已具备一定的“计算机使用”能力,能主动上网、查信息、执行操作,真正帮你把事办好。而现在,Project Mariner 再度迭代,支持多任务处理,并引入了一种新的方式“teach and repeat”——顾名思义:用户只需教它完成一次任务,它就能举一反三,自动学会类似操作。
目前,谷歌已通过 Gemini API 向部分开发者开放了 Mariner 的内测权限,预计将于今夏面向更多的开发者推出。同时 Gemini API 与 SDK 也已全面兼容 MCP 工具链,即开发者可以轻松构建具备“联网+调用服务”能力的智能代理。除了开发者生态,谷歌也正在把 Agent 能力逐步引入到 Chrome、搜索引擎和 Gemini 应用等产品中。例如,Gemini 应用中就即将上线“Agent Mode”,帮助用户完成更复杂的实际任务。
然而,正如 Sundar Pichai 所说,让 AI 真正进入现实生活的最佳方式,是让它“有用于你的现实生活”,这就需要个性化能力的加持。为此,他透露道谷歌正着手打造一个名为“个性化上下文(personal context)”的功能:在用户许可下,Gemini 模型可以读取用户在谷歌应用中的相关上下文信息,以完全私密、透明的方式进行分析和辅助。
举个例子,通过“个性化上下文(personal context)”功能,可进一步优化 Gmail 中的 AI 智能回复(Smart Reply)功能:Gemini 会结合用户过去邮件中的写作习惯,包括打招呼的方式、语气、用词风格,甚至是常用词汇,自动生成一封“就像你自己写的”邮件。
据悉,这项功能将于今年夏天在 Gmail 中上线,面向订阅用户开放;同时,类似的“个性化上下文(personal context)”功能未来也将在搜索、Docs、Gemini 等产品中带来巨大帮助。

变得“更好”的 Gemini 2.5 系列模型
紧随其后,谷歌 DeepMind 团队负责人 Demis Hassabis 在本次 I/O 大会上带来了 Gemini 2.5 系列大模型的最新进展。
“Gemini 2.5 Pro 是我们迄今为止最智能的模型,也是当前世界上最强大的基础模型。”Demis Hassabis 提到,最新版 Gemini 2.5 Pro 不仅在学术基准测试中性能卓越,更是荣登 WebDev Arena 和 LMArena 排行榜全球领先位置,在辅助学习方面也有着出色表现。
为了进一步提升用户体验,Gemini2.5 系列模型还迎来了一系列新功能升级:
● 原生音频输出功能,不仅能检测用户声音中的情感,还可以忽略背景对话并主动回应,给用户带来更自然的对话感受;
● 更高等级的安全防护,为用户数据安全保驾护航;
● Project Mariner 的计算机使用功能,拓展了产品应用场景。
此外,Gemini 2.5 Pro 还将借助 Deep Think 这一实验性增强推理模式,在高度复杂的数学和编程领域实现进一步突破。据谷歌介绍,处于 Deep Think 模式下的 Gemini 2.5 Pro,在面向竞赛级编程的难度基准 LiveCodeBench 中处于领先地位,同时在测试多模态推理的 MMMU 中也取得了 84.0% 的高分。
在开发者生态建设上,谷歌同样不遗余力:于 Gemini API 和 Vertex AI 中引入模型推理摘要,大幅提升透明度;将模型推理预算扩展至 2.5 Pro,赋予开发者更多控制权;在 Gemini API 和 SDK 中添加对 MCP 工具的支持,方便开发者访问更多开源工具,全方位优化开发者体验。
不仅如此,谷歌还宣布其“最高效的主力模型,专为速度和低成本而设计”的轻量级 AI 模型 Gemini 2.5 Flash 也将在 6 月初提供常规可用版本。相较于前代 Gemini 2.0 Flash,Gemini 2.5 Flash在推理、多模态、代码和长上下文的关键基准测试中都得到了改进,同时效率也更高,在谷歌评估中使用的 token令牌数量还减少了 20-30%。


谷歌搜索,全新的“AI 模式”惊艳亮相
“整合全球信息,让每个人都能访问并使用它”,这是 Sundar Pichai 所认为我们应该肩负的使命,而他指出:没有哪一款产品比谷歌搜索更能体现这一使命。
自去年 I/O 大会上推出了 AI 概览功能以来,人们使用谷歌搜索的方式发生了深刻的转变:如今每月有超过 15 亿用户,在 200 多个国家和地区使用谷歌搜索,而用户在使用 AI 概览后,对搜索结果的满意度显著提升,整体搜索频率也在上升。
“可以说,这(AI 概览功能)是近十年来搜索领域最成功的发布之一。”
基于此,在本次大会中谷歌重磅发布了全新的搜索体验——“AI 模式”,标志着其搜索引擎的重大升级。该模式由先进的 Gemini 2.5 模型提供支持,旨在通过更智能、个性化的方式满足用户的搜索需求。

简单来说,“AI 模式”是谷歌搜索的一种全新交互方式,融合了对话式 AI、图像识别和多模态推理能力,可将用户问题拆解为多个子主题并同步搜索,比传统搜索更深入挖掘网络内容,精准匹配高相关度信息。
(1)深度搜索(Deep Search),高效完成专业研究:引入深度搜索功能,用于需要深入分析的问题,通过 “查询扇出” 技术的升级,可同时发起数百次搜索,整合多源信息并生成带完整引用的专家级报告,大幅缩短研究时间。
(2)实时交互,将视觉搜索与实时对话结合:将 Project Astra 的实时功能引入搜索,在 AI 模式中点击“实时”图标,通过摄像头拍摄物体或场景,即可与搜索进行实时对话。
(3)智能 Agent,可自动处理繁琐任务:将 Project Mariner 的 Agent 功能引入 AI 模式,帮助用户节省购买门票等任务的时间,同时确保其控制权。
(4)智能购物,支持个性化选购与自动下单:用户上传个人照片,即可拟虚试穿数十亿件服装商品,直观查看穿搭效果;选定商品后,AI 也可以根据用户设置的条件(如价格、库存)自动完成购买流程。
(5)个性化推荐,基于个人数据的定制结果:未来 AI 模式将根据用户的历史搜索记录提供个性化建议,还可选择关联 Gmail 等谷歌应用,纳入更多个人背景信息。
目前,谷歌搜索中的“AI 模式”已在美国全面上线,用户无需注册即可使用。同时,谷歌计划在未来几个月内将其推广至其他国家和地区。

多模态模型全面升级,创作者“狂喜”:用 AI 就能拍电影?
在多模态技术方面,谷歌也发布了多项重磅生成式 AI 产品,覆盖视频、图像、音乐等多个创作领域。
首先是视频生成,最新视频生成模型 Veo 3 不仅画质提升,还首次实现视频与音频同步生成,能精准匹配如城市街道车流声、公园鸟鸣声甚至人物对话等声音。特别的是,Veo 3 支持文本或图像提示,可依据用户的简单一句话便生成一个连贯的视频片段。目前,Veo 3 已向美国 Ultra 订阅用户开放,企业用户也可在 Vertex AI 平台调用。
同时,Veo 2 模型也迎来功能更新:新增参考图驱动视频功能,创作者上传角色、场景等图片可确保创作一致性与细节把控;镜头控制功能支持旋转、平移、缩放等精准运镜;画面扩展功能可智能扩展视频边框,适配不同屏幕尺寸;物体增减功能则能添加或移除画面物体,并自动处理光影、比例等效果。

其次在图像生成领域,最新的Imagen 4 模型支持 2K 分辨率及多比例构图,能细腻刻画复杂细节,文字拼写和排版准确性显著提升,适用于贺卡、海报等设计。该模型已接入 Gemini 应用、Whisk、Vertex AI 及 Workspace 套件,同时谷歌还预告,即将推出速度比 Imagen 3 快 10 倍的 Imagen 4快速版本。
然后是音乐创作领域,Lyria 2 于 4 月已通过 Music AI Sandbox 向音乐人开放,如今用户可通过 YouTube Shorts 和 Vertex AI 企业版使用,其实时音乐生成模型 Lyria RealTime 也已接入 API 和 AI Studio,支持交互式音乐创作与表演。
最后值得一提的是,谷歌还推出了集成多模型的 AI 电影制作工具 Flow:它结合了 Veo、Imagen 和 Gemini,用户只需用自然语言描述想要的镜头,即可生成电影级质感的片段与连贯剧情。此外,谷歌也强调所有其 AI 模型(Veo 3、Imagen 4 和 Lyria 2)生成的视频和图像内容都将继续嵌入不可见的 SynthID 数字水印,并正式推出了 SynthID Detector 验证平台,供用户检测内容是否为 AI 生成。

谷歌推出最强 AI“全家桶”
Google AI Ultra 来了,每月 249.99 美元
在介绍完其 AI 模型的全部更新后,谷歌便顺势推出了全新的高端 AI 订阅服务 —— Google AI Ultra。该计划旨在为专业创作者、开发者和对 AI 有高需求的用户提供最先进的 AI 工具和功能。
Google AI Ultra 是谷歌目前功能最强大的 AI 订阅计划,月费为 249.99 美元(约人民币 1804 元),首三个月享有五折优惠,可提供最高使用额度、最早体验先进模型如 Veo 3、Gemini 2.5 Pro Deep Think 模式、最高额度的 Flow、专属 Agent Mode、YouTube Premium 以及 30TB 云存储空间。
而对于预算有限的用户,谷歌也提供了每月 19.99 美元(约人民币 144 元)的 Google AI Pro 计划(原 AI Premium 计划),订阅后用户可使用基础模式的 Gemini 2.5 Pro,以及基于 Veo 2 模型的 Flow,并提前访问 Chrome 中的 Gemini 功能(美国优先,其他地区后续跟进)。

首款 Android XR 设备即将问世
在发布会最后,谷歌带来了 Android XR 的最新进展。Android XR 是谷歌专为扩展现实(XR)设备设计的操作系统,支持增强现实(AR)、虚拟现实(VR)和混合现实(MR)技术,整合了 Gemini AI 技术,能根据用户的视角提供实时帮助,如导航、翻译和信息摘要。
目前,谷歌已与多家合作伙伴共同开发基于 Android XR 的智能眼镜,包括与 Warby Parker 和 Gentle Monster 合作的时尚款式,以及与 Xreal 合作的 Project Aura。这些眼镜配备了摄像头、麦克风、扬声器和可选的镜片内显示器,支持拍照、导航和实时翻译等功能。
此外,谷歌还与三星合作开发了 Project Moohan 头戴设备,也预计将于 2025 年晚些时候发布。该设备将提供更沉浸式的 XR 体验,适用于游戏和专业应用。
以上,便是此次谷歌 I/O 大会的亮点内容,其中你最感兴趣的是什么呢?欢迎留言评论~
(文:AI科技大本营)