SOTA级视频编辑新方法:无需训练一句话编辑视频,背景保持100%

FlowDirector团队 投稿
量子位 | 公众号 QbitAI

传统的视频编辑工作流,正在被AI彻底重塑。

AI的视频编辑方法总是存在一些问题:例如视频运动不连贯、编辑后的视频产生意外变化等……经过分析,这些问题的产生最终大都指向同一原因——反演-编辑范式

因此,西湖大学AGILab提出了一种全新的无需反演和训练的视频编辑新方法:FlowDirector

相较于其他视频编辑方法,FlowDirector有以下方面值得关注:

  • 开销低:FlowDirector无反演过程,不需要存储任何额外的控制信息(如Attention Map),单卡4090就可实现高质量视频编辑。
  • 支持广泛:除可进行传统的对象替换外,FlowDirector可以任意的添加、删除视频中的内容,以及进行一系列的纹理替换。
  • 背景100%保持:通过对非编辑区域的“动力”进行冻结,使得编辑后的视频在无关区域与原视频完全保持一致。

编辑结果展示:

方法:针对视频编辑中的「反演痛点」

现在的通用视频编辑方法大多基于反演-去噪(inversion-denosiong)范式:

  • 反演:把原视频使用特定的方法(例如DDIM Inversion)拉回对应噪声空间得到潜在特征;
  • 去噪:对噪声空间中的潜在特征重新进行采样,并在采样中注入一些特定的控制条件来达到编辑效果。

这种范式带来了许多问题:反演过程中的错误会不断的累计,使得得到的潜在特征并非是完美的,因此给去噪过程提供错误的起点,导致出现例如编辑视频动作不连贯等结构性损失,编辑结果受到严重干扰。

并且在去噪过程中的条件注入带来了额外的存储开销,限制了编辑产生的结果。

FlowDirector则摒弃了传统的反演-去噪范式,通过构造从源视频到编辑结果的直接编辑路径,实现高质量、准确和高可控的视频编辑效果。具体实现如下:

直接流演化与空间矫正:精准、高质

FlowDirector直接特征空间构建“源视频→目标视频”的演化路径,但这种直接演化范式并非完美无瑕,直接编辑路径产生的编辑流作用于全视频特征,会导致无关区域发生意外变化,严重影响编辑视频的保真度。

如图所示,在对目标编辑对象进行编辑时,编辑影响在了无关区域(道路)。

为此,研究团队提出了空间感知流矫正(Spatially Attentive Flow Correction,SAFC):SAFC通过定位并限制编辑视频中关键对象所在的空间区域,来防止编辑流干扰无关区域。

如图所示,编辑左右被精确的限制在了车的周围,干扰泄漏现象消失。

具体措施为基于注意力热图生成二值掩码,仅在语义相关的区域(如要替换或修改的物体、人物)施加流演化,背景与非目标部分完全“冻结”,保证编辑后视频的结构与纹理不受影响。

差分平均引导:一种编辑流的自动引导优化方式

这种直接演化范式带来的第二个问题是,由于跳过了反演过程,原始视频的控制信号会在编辑的整个流程均显著存在,往往会对最终效果施加过强的“控制效果”,导致修改后的视频中依然残留明显的原始物体轮廓或细节伪影。

为此,作者团队提出了差分平均引导(Differential Averaging Guidance,DAG),同时进行“高质量采样”和“快速基线采样”,通过比对两者之间的差异来提炼出真正需要的编辑优化方向。具体来说:

  • 1.进行差分采样得到高质速度和基线速度
    在每一次扩散迭代中,首先对掩码校正后的差分速度场做多次高质量采样,并将结果取平均得到一个精确且细节充足的速度估计;与此同时,用更少的采样次数生成一组基线速度
  • 2.产生引导编辑效果增强的指导信号
    将每个基线速度与高质量速度相减,得到,这些差分信号准确指示了“从始视频到目标风格”所需的增量变化方向,能够有效抑制原始帧中残留的强控制成分(即伪影)。
  • 3.进行差分平均自动引导
    将所有差分信号求平均,然后按一定权重与高质量速度进行线性融合:
    这个融合结果既保留了高质量采样带来的细节与语义对齐,又利用差分引导信号实现自动引导,进一步降低了原始视频残影的干扰。

这样一来,系统不仅能保留足够的语义细节、确保目标区域与文本提示高度匹配,还能有效抑制原始视频多余信息的干扰。

最终,DAG让FlowDirector在保证高保真度的同时,不至于陷入冗长采样带来的算力瓶颈,实现了“画质优先、效率优先”的双重升级。

实验结果:多指标SOTA,支持添加、删除和修改多任务

FlowDirector团队首先进行了全面的定性实验,包含一系列定性任务,例如添加物体,删除物体,形态差异剧烈的对象替换,对象属性更改(如人的衣着),纹理替换以及这些任务的组合。

结果得到,在广泛的任务上,FlowDirector均能够精准捕捉并反映提示中指定的关键风格属性(例如颜色、材质等),优先确保文本语义与视觉效果的高度对齐。

同时,在保证目标区域发生预期变化的前提下,FlowDirector也能确保输出视频的整体布局稳定、无关区域一直与结构完整。

在定量结果中,FlowDirector在各种指标上均取得SOTA(在WarpSSIM上并非最高,因为FlowDirector能够实现更大程度的语义变换,导致像素级的光流扭曲数值略低),显著超过了已有的视频编辑方法。

对比多种SOTA的视频编辑方法(如FateZero、TokenFlow、VideoDirector等),FlowDirector在对象形变幅度、文本一致性、视觉细节与运动流畅度方面均表现突出,综合主观与客观评测指标均居领先水平。

总体而言,FlowDirector展示了视频编辑的新思路:无需反演的直接流编辑,并引入了空间矫正和自动引导,显著提升了编辑视频的质量,实现了快、准、省的三重跃升。

论文链接:https://arxiv.org/abs/2506.05046
项目地址:https://flowdirector-edit.github.io
Github:https://github.com/Westlake-AGI-Lab/FlowDirector
Huggingface:https://huggingface.co/spaces/Westlake-AGI-Lab/FlowDirector

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —


🌟 点亮星标 🌟

科技前沿进展每日见

(文:量子位)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往