今年最火 AI 视频 Veo 3 大更新!上传一张图,家里的猫和鲁迅就能开口「吐槽」 附实测

今年最火的视频 AI 视频模型 Veo3 ,最近又迎来更新,能让图片开口说话了。
Google CEO Sundar Pichai 发 X 说,自从五月 Google 开发者大会以来,用户已经使用 Veo 3 创建了超过 4000 万的视频。
而且,现在通过 Gemini 就能体验到 Veo 3 强大的视频生成能力。
Veo 3 最近的这次更新,让非常多的创作者再次兴奋地发起「整活」大赛。
最吸睛的变化是,你上传一张图片,它可以直接「开口说话」了!不仅是嘴动,配音也来了。
像是这个,家里小朋友随手画的一只小老鼠,可以从纸上动起来,还会有老虎的背景声音。
https://x.com/joshwoodward/status/1943326836081193086
有了图生带声音的视频,还有人用 Veo 3 直接制作了一个由相同角色讲述的连贯短片。
https://x.com/Diesol/status/1942452185259991246
我们带你快速看看它这次更新都改了什么,又能怎么玩出新花样。
更新亮点:
原来的首帧转视频或图片转视频,不支持声音的生成。这一次,只需要上传一张静态图片,加上文字脚本,就能生成口型和语音同步、或者音效丰富的视频。
此外,Veo 3 Fast 模型也支持首帧转视频,我们可以消耗更少的积分,快速生成一段 AI 视频。
积分上,Pro 用户(每月 1000 点数)支持购买额外 AI 点数,不用干等月初刷新,按需加点,灵活性提高。
虽然让照片动起来不是 Veo 专有,我在抖音上也一些视频。他们是拍一张自己的照片,然后就会生成一个帅哥/美女来亲吻或者拥抱他,也是只需要上传照片就可以。
但 Veo 3 和抖音上这个特效不同,它现在能做的不仅仅是针对某一种特定类型,所有的图片都可以生成视频,并且,是有声音的视频。
Veo 3 实测体验:一句话让图片开口说话,效果靠谱吗?
我们也用 Veo 3 在 Gemini 和 Flow 里面都生成了一些视频。
图片转视频能够「说话」之后,生成的视频确实会更惊艳。
像是我们也拍摄了一张爱范儿园区的照片,然后像 Google CEO 发布的那个视频一样,让一只骨架恐龙在这里漫步。
音效、配合首帧画面的一致性、骨架恐龙都非常出色。不过还是有缺点,后面生成的广州塔顶部观景平台明显不对。
可能是我给他的图片场景太复杂,我随手拍了一张工位上的杯子,然后告诉 Veo,让这个杯子长出手脚,破坏我的笔记本。这下它处理起来就明显更容易了。
我觉得和现实生活中我们拍摄的照片联动起来,想一个好玩的提示词,这真的很有意思。
打开一本书,一个全新的世界跃然纸上,真的可以做到,只用拍张照片,一句提示词。
Veo 不能生成长视频,但有了图片转视频还能生成声音的功能,我们可以把原来 Veo 3 限制 8 秒的视频无限扩展。只要你有想象力,Veo 甚至能生成一个微电影。
我们尝试了让它生成一座城市的千年进化史,展现一座城市从无到有,再到未来幻想。
同时,还配上了专门的音效说明。像是从自然之声开始,逐渐加入建设声、马车声、工业轰鸣、现代都市的喧嚣,再到未来科技感的声音,最后回归宁静。
虽然这个过程比较麻烦,需要我们每生成一个 8 秒的视频,都截取这个视频的最后一帧作为下一个视频生成的首帧。但通过这样的方式,就能一直「延长」一个视频。
我们是直接在 Gemini 里面生成的这个视频。点击「新增相片」,然后输入提示词,Gemini 会使用 Veo 3 Fast 快速生成(约 1-2 分钟)一段 8 秒的视频。
Gemini 的可选项不如 Flow 里面丰富,使用 Flow,不仅可以指定视频的首帧,还能指定视频的最后一帧。开头的恐龙视频,我们就是在 Flow 里面生成。下面还有几个我们用 Flow 的帧转视频生成的内容。
让历史人物也开口说话,我们找了一张鲁迅的图片,然后告诉 Veo 让照片里的人开始说话。以后,再看到有人说「鲁迅:这我没说过」,用 Veo 3 丢个视频给他,这话鲁迅真说过。
不过尴尬的是,现在还只能说英文。
家里的宠物,小猫小狗也能动起来,开口向你吐槽了。
此外,我们还尝试了指定首帧和最后一帧,以及运镜的类型。在 Flow 里,它提供了推镜、拉镜、摇臂,平移、环绕、俯仰等 13 种运镜类型。
我们选了一张几天前的晚霞照片和开头的爱范儿照片,告诉 Veo 一步步推进直到定位到最后一帧。不过,选择特定推镜方式的时候,Veo 2 还是不够智能,它没有办法很好的生成这个转变。所以下面是默认的镜头运动方式,Veo 生成的视频。
还需要注意的是,现在指定两张图片,还不支持 Veo 3 模型,只能使用没有声音的 Veo 2 Fast。
不仅可以复活名画,还能生成酷炫广告
在网上也有非常多人分享自己使用 Veo 3 生成的有意思的视频。不少人表示,图片带音频的视频生成,是 AI 视频生成领域的一项大突破。
https://x.com/venturetwins/status/1942972223725437130
这段 39 秒的采访视频完全由 Veo 3 Fast 生成,作者就是可以通过将一个片段的最后一帧,作为下一个片段的起始帧来从实质上「延长」它。
还有人用 Veo 3 重现了古典艺术中描绘的莎士比亚悲剧。作者直接使用了著名的画作奥菲莉亚和提示词「她坐起来说,实际上,我想我已经厌倦了哈姆雷特」。
https://x.com/emollick/status/1943061819331088434
除了让这些艺术作品开口说话,还有用 Veo 制作了非常多长度在一分钟左右的广告视频,有酷炫的汽车广告,还有手机广告,指定产品名字和 Logo 的广告,都能生成。
最后,Google 在昨天自己也发了一个让狗狗开口说话的视频。
感兴趣的朋友可以在 Gemini 和 Google 实验室项目里面的 Flow 体验!
如果没有开通 Pro 会员的话,还可以试试透过 docs.google.com/videos/ 去看看是否有免费生成视频的选项。
欢迎加入 APPSO AI 社群,一起畅聊 AI 产品,获取#AI有用功,解锁更多 AI 新知👇
我们正在招募伙伴
📮 简历投递邮箱hr@ifanr.com
✉️ 邮件标题「姓名+岗位名称」(请随简历附上项目/作品或相关链接)
更多岗位信息请点击这里🔗

(文:APPSO)

发表评论