估计今天都被 Lovart AI 刷屏了,前段时间也受邀参加了测试,先看图了解一下产品基本能力。

当时看到 GPT-4o 的图片的时候,我就知道通用的设计 Agent产品出现的条件已经成熟,没想到是他们先掏了出来。
而且效果还这么好,整个产品很好的兼顾了设计小白和专业用户,把设计门槛拉低到了令人发指的地步。
无论你是个体户老板、营销人员、设计师、电商设计,只要你会打字,能够描述你的大致要求,哪怕只会打几个字你也可以获得高水准的设计产出。
流程深度拆解
先来看一个案例,这是个香水的视频广告,完成度非常高,,而我的提示词只有几十个字,而且从提示词来看我也没有指望他直接完成视频的制作,我写的都是为后面做做视频做准备。
提示词:帮我为这个产品生成一个 30 秒广告需要的所有分镜图片,后续我会基于这些图片指导拍摄和生成视频
很多朋友可能对 AI 能全自动做出这个产品的难度没有概念。
我来一步一步深度拆解一下Lovart 的 Agent 是如何做的,同时看一下我的心路历程,后面我都傻了。
一般来说你肯定以为他要直接生成提示词开始画图了,但并没有,Lovart 进行了非常多的分析,比一些设计师都专业。
首先他根据我上传的香水图片获得了香水的信息和名字。
然后他开始写脚本了,还自己发散了这个视频的视觉风格关键词“优雅、精致、电影感”太专业了,懂行的朋友就会发现很像专业的广告拍摄流程。
之后他写了简单的视频简介,确保整个视频的分镜是有连贯性的,在一整个场景。


故事知识这部分还没完,他还对广告片的主角做了详细的设定,比如外貌、衣着、性格、情感表现等。
之后开始写每个分镜场景的描述,这部分也相当专业了,说实话让我自己搞我搞不了这么细。
到这里,他依然没有开始进行设计,真的朋友们,在设计开始前搞这么多调研,都比很多所谓的“调研 Agent”专业的多了。


终于他开始生成图片了,这时候又惊到我了,他会自动判断需要什么类型的模型,这里他觉得用 FLUX 效果好。
他居然开始挑选合适的 Lora!
可以看到他选的都是非常合适的,有人像的还有专门的化妆品广告图片模型。
更邪门的是他会主动维持人像的一致性,他知道先生成一个主角的全身图用来给后面的 InstentID 类的 ID 保持模型进行参考,确保每个分镜的主角面部和穿着是一致的。
tmd 真的他太会了,朋友们,你就学吧,这套流程比很多专门做 AI 视频的都要专业了。


到这个时候他才终于开始完成我本来想要求他做的工作,生成分镜图片。
可以看到前面的准备真的用到了图片生成上面,真的是“优雅、精致、电影感”,另外人物的穿着、面部和表现都能展示出刚开始的设定一致性。

接下来第一次震惊我的地方到了。
他一个设计 Agent 居然为了给我解释每个分镜应该怎么拍具体是怎么设计的,写了个网页!
然后他做了长截图,放在了画布里面,太天才了这个操作!
可以看到整个长图非常直观,而且标题的文字和排版也很高级,连解释的物料都延续了他设定的设计风格。

前面说过我本来没想到他能生成视频的,右边的过程都是英语我也没仔细看。
到这里,我发现不对了,他好像真的在生成视频。
这里视频生成的提示词也在延续他刚才的设定,运镜、人物运动方式等。
可灵的生成时长是很长的 8 个分镜图片的生成起码得十几分钟,算上之前的一堆内容,整个 Agent 的上下文已经非常长了,而且时间也很长,这非常考验对模型和 Agent 设计的优化。
一般我们自己搞的时候,这时候已经要超上下文了,他们的技术实力真的很厉害。

现在最关键的部分来了,我们指导视频视频模型生成的视频片段并不能算是完整的视频。
一个完整的视频起码包括:多个连贯的分镜、流畅的剪辑、优秀的配乐、广告口播。
这一部分目前做的平台和公司很少,所以很多人还是 AI 生成视频片段之后自己剪,你现在招一个剪辑虽然便宜,但是自己学起来真的很难。
由于要考虑的维度和素材过多自动化也很难。
结果,我看到了什么朋友们!
Lovart 自己开始生成对应的背景音乐,然后开始生成对应的口播语音,最后 tmd 他真的搞定了一个完整的视频。
我自己探索过这类视频自动化流程,我知道这有多难,到现在我真的只有佩服,真的很厉害。


其他测试
我还让他试了一下藏师傅的 4o 经典提示词,比如下面这个为不同的城市生成茶杯头风格的复古海报。
你只需要给他示例的提示词就行,完全不需要自己更改,他会自己搜索这些城市的信息给你然后自动批量生成,效率非常高。
另外你有没有发现,Lovart 用 4o 生成的这几张没有 GPT 那么黄(拉萨是 ChatGPT 生成的)。
他们真的很听劝,藏师傅说了可以参考我的调色方式做一下 4o 图片的去黄他们立刻就上了,而且效果比我自己搞的可能还好点。

常见的设计需求几乎都可以丢给他,比如我这里让他把图2 的 T 恤穿到图 1 的模特图身上,然后基于这个图片生成不同分辨率的商品广告宣传图,他也搞得很好,我全程没有干预,一次搞定。

到这里藏师傅的介绍和流程拆解就结束了。
可以看到我上面一直在强调的词就是“专业”,再做垂类 Agent 的时候这个非常重要。
你要足够了解垂类用户的需求,足够了解图像和视频模型的工作流程,足够了解 LLM 和 Agent 本身。
从 Lovart 这里我看到了 Agent 产品的壁垒在哪里。
不是非要搞预训练搞模型才有壁垒,当你在每个部分都很“专业”的时候,别人就很难追上你。
老规矩,还带点邀请码,但现在发放量真的很少,藏师傅求了三个,咱们抽奖得了,满 2000 人开奖。
(文:归藏的AI工具箱)