一个气泡水广告，为何几十万人围观？原来整个都是Veo 3生成的

机器之心报道

机器之心编辑部

最近，一个完全由 AI 制作的广告在社交媒体上爆火，在 X 上有三十多万人观看。

这是一个叫 Too Short for Modeling 的团队发布在 LinkedIn 上的作品，不过它并不是一个商业作品，而是该团队为一直想合作的品牌制作的概念影片。

距离 Veo 3 发布已经过去一个半月了，虽然此前模型视频生成已经能达到很逼真的状态，但 Veo 3 的「音画同步」功能，引领 AI 视频创作进入了全新的声画一体化阶段。同时它也让 AI 视频生成进入了更有实践意义的阶段，极大地降低了视频创作的门槛。

我们先来看看这个广告效果怎么样。

来源：https://www.linkedin.com/posts/arielyoriginal_veo3-aicreative-fakeads-activity-7346271275020902400-P9fd

人物1：下午好，小伙子。 (Good afternoon, son.)

人物2：想猜猜我为什么让你靠边停车吗？ (Wanna take a guess why I pulled you over?)

人物1：哦，不是你想的那样。 (Oh, it’s not what you think.)

人物1：这是“液态死亡”。是苏打山泉水。 (It’s liquid death. They’re sparkling mountain water.)

人物2：嗯。哇。你没开玩笑。 (Mmm. Wow. You weren’t kidding.)

人物2：确实很清爽。 (That is refreshing.)

人物2：但这不是我让你靠边停车的原因。 (But it’s not why I pulled you over.)

人物1：哦，天哪。 (Oh boy.)

人物1：是因为破损的尾灯吗？ (Is it the busted taillight?)

人物2：不是。 (Uh-uh.)

人物1：是因为车牌吗？ (Is it because of the license plate?)

人物2：不是。 (Nope.)

人物1：该死，伙计。是那个死人，对吧？ (Shit, man. It’s the dead guy, right?)

人物2：不，先生。 (No, sir.)

人物1：也许是人口贩卖？ (Is it the human trafficking, perhaps?)

人物2：不是。 (Uh-uh.)

人物1：伙计，是卡车的事吗？ (Man, is it the truck thing?)

人物2：我不这么认为。 (I don’t think so.)

人物1：好吧，那到底是什么？ (Well, what is it then?)

人物1：抢劫案？ (The robbery?)

人物2：不。 (No.)

人物1：是保险杠贴纸？ (The bumper sticker?)

人物2：不。 (No.)

人物1：是被车撞死的动物，对不对？ (It’s the roadkill, isn’t it?)

人物2：没听说过。 (Haven’t heard of it.)

人物1：是化学废料？ (The chemical waste?)

人物2：不是。 (Uh-uh.)

人物1：是过山车座位吗？ (Is it the roller coaster seat?)

人物1：是邪教的事吗？ (Is it the cult thing?)

人物2：绝对不是。当然不。 (Absolutely not. Hell no.)

人物1：好吧，我放弃了。 (All right, I give up.)

人物1：到底是什么？ (What is it?)

人物2：因为今天是你的生日。 (It’s because it’s your birthday.)

人物2：生日快乐，凯文。 (Happy birthday, Kevin.)

人物1：爸爸，你还记得。 (Dad, you remembered.)

人物2：祝你生日快乐，祝你生日快乐，祝你生日快乐。 (Happy birthday to you, Happy Birthday to you, Happy Birthday to you.)

视频字幕，上下滑动查看。

这个广告的笑点密集，令人捧腹。但其真正的亮点在于惊人的「角色一致性」。在一分钟内，视频流畅地切换了10个场景，每个画面的风格都保持了高度统一，核心人物和道具也完美衔接。尽管在车窗、内饰等细节上能察觉到微小的跳跃，但这丝毫未影响其出色的整体连贯性。

要知道 AI 生成视频中经常出现容貌突变、物体错乱等问题。

主创团队分享了他们保持一致性的秘诀——超精细提示 (Hyper-specific Prompting)：为模型提供极其详尽、具体且包含大量上下文细节的指令或问题。

这种提示的设计目的是为了最大限度地减少模型的自由发挥空间，引导它生成高度精确、符合特定格式和要求的输出。

相关的提示词优化方法，在我们之前的文章中也提到过，读者可以参考：实测惊艳全球的 Veo3！音画同步无敌，贵是有原因的

值得一提的是，创意、策略与审美依然由人类主导。从最初的灵感、脚本，到由剪辑师完成的最终效果呈现，人的价值贯穿始终。AI 是强大的「执行者」，但遵循的是概率而非远见——至少在今天，这道边界依然清晰。

AI为何总在细节上「翻车」？

关于「角色一致性」的问题，技术层面来讲，并非模型「犯了糊涂」，而是主流视频生成模型背后的核心技术——扩散模型本身的工作原理、训练数据以及从图像到视频的技术跨越之中，主要是以下几点原因：

模型没有「理解」世界，只有「概率统计」：模型并非真正理解「人有五根手指」这类事实，而是通过学习海量数据，知道「五指的手」是最高概率的模式。当生成过程中出现随机偏差时，由于缺乏常识性规则的约束，它可能会生成一个概率上虽低但仍有可能的「六指」结果。

局部生成与全局和谐的矛盾：模型更擅长生成逼真的局部细节（如皮肤纹理），但对整体结构（如完整的身体解剖）的把握较弱。它可能会因为专注于让局部「看起来对」，而忽略了其在整体画面中的逻辑是否合理，导致「只见树木，不见森林」的结构性错误。

从图像到视频的挑战：视频的本质是连续的图像序列，而模型在生成每一帧时都可能存在微小的随机差异。这种帧与帧之间的「失忆」累积起来，就会导致角色外观、服饰或背景等元素在时间线上发生不连贯的漂移和变化，破坏了时间一致性。

训练数据的「不完美」：模型的知识完全来源于它所学习的训练数据。网络数据本身就包含大量错误、低质量和不合逻辑的内容。模型会将这些「坏数据」也一并学会，并在生成时复现出来，可谓「垃圾进，垃圾出」。

探索AI的创意玩法

当前，大量猎奇、同质化的 AI 视频内容，正是 AI 技术被「降维使用」的体现。真正值得我们探索的，是 AI 作为「创意催化剂」的巨大潜力。

下面这些会不会是 AI 的正确打开方式？

为你喜欢的电影制作一个平行宇宙。

让初音未来进入老头环的世界，会不会是下一个爆款游戏的灵感？

为公司做一个网站。

或者做一个超炫酷的概念影片。

你觉得 AI 还能为我们的创意带来什么惊喜？欢迎在评论区留下你的脑洞。

（文：机器之心）

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

发表评论 取消回复

发表评论取消回复