今年最火 AI 视频 Veo 3 大更新！上传一张图，家里的猫和鲁迅就能开口「吐槽」附实测

今年最火的视频 AI 视频模型 Veo3 ，最近又迎来更新，能让图片开口说话了。

Google CEO Sundar Pichai 发 X 说，自从五月 Google 开发者大会以来，用户已经使用 Veo 3 创建了超过 4000 万的视频。

而且，现在通过 Gemini 就能体验到 Veo 3 强大的视频生成能力。

Veo 3 最近的这次更新，让非常多的创作者再次兴奋地发起「整活」大赛。

最吸睛的变化是，你上传一张图片，它可以直接「开口说话」了！不仅是嘴动，配音也来了。

像是这个，家里小朋友随手画的一只小老鼠，可以从纸上动起来，还会有老虎的背景声音。

https://x.com/joshwoodward/status/1943326836081193086

有了图生带声音的视频，还有人用 Veo 3 直接制作了一个由相同角色讲述的连贯短片。

https://x.com/Diesol/status/1942452185259991246

我们带你快速看看它这次更新都改了什么，又能怎么玩出新花样。

更新亮点：

原来的首帧转视频或图片转视频，不支持声音的生成。这一次，只需要上传一张静态图片，加上文字脚本，就能生成口型和语音同步、或者音效丰富的视频。

此外，Veo 3 Fast 模型也支持首帧转视频，我们可以消耗更少的积分，快速生成一段 AI 视频。

积分上，Pro 用户（每月 1000 点数）支持购买额外 AI 点数，不用干等月初刷新，按需加点，灵活性提高。

虽然让照片动起来不是 Veo 专有，我在抖音上也一些视频。他们是拍一张自己的照片，然后就会生成一个帅哥/美女来亲吻或者拥抱他，也是只需要上传照片就可以。

但 Veo 3 和抖音上这个特效不同，它现在能做的不仅仅是针对某一种特定类型，所有的图片都可以生成视频，并且，是有声音的视频。

Veo 3 实测体验：一句话让图片开口说话，效果靠谱吗？

我们也用 Veo 3 在 Gemini 和 Flow 里面都生成了一些视频。

图片转视频能够「说话」之后，生成的视频确实会更惊艳。

像是我们也拍摄了一张爱范儿园区的照片，然后像 Google CEO 发布的那个视频一样，让一只骨架恐龙在这里漫步。

音效、配合首帧画面的一致性、骨架恐龙都非常出色。不过还是有缺点，后面生成的广州塔顶部观景平台明显不对。

可能是我给他的图片场景太复杂，我随手拍了一张工位上的杯子，然后告诉 Veo，让这个杯子长出手脚，破坏我的笔记本。这下它处理起来就明显更容易了。

我觉得和现实生活中我们拍摄的照片联动起来，想一个好玩的提示词，这真的很有意思。

打开一本书，一个全新的世界跃然纸上，真的可以做到，只用拍张照片，一句提示词。

Veo 不能生成长视频，但有了图片转视频还能生成声音的功能，我们可以把原来 Veo 3 限制 8 秒的视频无限扩展。只要你有想象力，Veo 甚至能生成一个微电影。

我们尝试了让它生成一座城市的千年进化史，展现一座城市从无到有，再到未来幻想。

同时，还配上了专门的音效说明。像是从自然之声开始，逐渐加入建设声、马车声、工业轰鸣、现代都市的喧嚣，再到未来科技感的声音，最后回归宁静。

虽然这个过程比较麻烦，需要我们每生成一个 8 秒的视频，都截取这个视频的最后一帧作为下一个视频生成的首帧。但通过这样的方式，就能一直「延长」一个视频。

我们是直接在 Gemini 里面生成的这个视频。点击「新增相片」，然后输入提示词，Gemini 会使用 Veo 3 Fast 快速生成（约 1-2 分钟）一段 8 秒的视频。

Gemini 的可选项不如 Flow 里面丰富，使用 Flow，不仅可以指定视频的首帧，还能指定视频的最后一帧。开头的恐龙视频，我们就是在 Flow 里面生成。下面还有几个我们用 Flow 的帧转视频生成的内容。

让历史人物也开口说话，我们找了一张鲁迅的图片，然后告诉 Veo 让照片里的人开始说话。以后，再看到有人说「鲁迅：这我没说过」，用 Veo 3 丢个视频给他，这话鲁迅真说过。

不过尴尬的是，现在还只能说英文。

家里的宠物，小猫小狗也能动起来，开口向你吐槽了。

此外，我们还尝试了指定首帧和最后一帧，以及运镜的类型。在 Flow 里，它提供了推镜、拉镜、摇臂，平移、环绕、俯仰等 13 种运镜类型。

我们选了一张几天前的晚霞照片和开头的爱范儿照片，告诉 Veo 一步步推进直到定位到最后一帧。不过，选择特定推镜方式的时候，Veo 2 还是不够智能，它没有办法很好的生成这个转变。所以下面是默认的镜头运动方式，Veo 生成的视频。

还需要注意的是，现在指定两张图片，还不支持 Veo 3 模型，只能使用没有声音的 Veo 2 Fast。

不仅可以复活名画，还能生成酷炫广告

在网上也有非常多人分享自己使用 Veo 3 生成的有意思的视频。不少人表示，图片带音频的视频生成，是 AI 视频生成领域的一项大突破。

https://x.com/venturetwins/status/1942972223725437130

这段 39 秒的采访视频完全由 Veo 3 Fast 生成，作者就是可以通过将一个片段的最后一帧，作为下一个片段的起始帧来从实质上「延长」它。

还有人用 Veo 3 重现了古典艺术中描绘的莎士比亚悲剧。作者直接使用了著名的画作奥菲莉亚和提示词「她坐起来说，实际上，我想我已经厌倦了哈姆雷特」。

https://x.com/emollick/status/1943061819331088434

除了让这些艺术作品开口说话，还有用 Veo 制作了非常多长度在一分钟左右的广告视频，有酷炫的汽车广告，还有手机广告，指定产品名字和 Logo 的广告，都能生成。

最后，Google 在昨天自己也发了一个让狗狗开口说话的视频。

感兴趣的朋友可以在 Gemini 和 Google 实验室项目里面的 Flow 体验！

如果没有开通 Pro 会员的话，还可以试试透过 docs.google.com/videos/ 去看看是否有免费生成视频的选项。

欢迎加入 APPSO AI 社群，一起畅聊 AI 产品，获取#AI有用功，解锁更多 AI 新知👇

我们正在招募伙伴

📮 简历投递邮箱hr@ifanr.com

✉️ 邮件标题「姓名+岗位名称」（请随简历附上项目/作品或相关链接）

更多岗位信息请点击这里🔗

（文：APPSO）

2026 年 1 月
一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

发表评论 取消回复

发表评论取消回复