迈向长上下文视频生成!FAR重塑下一帧预测范式,短视频与长视频双双登顶SOTA

本文首次系统性地研究并提出了高效建模长上下文视频生成的方法,通过重构视频生成任务为逐帧预测,并引入长短时上下文的非对称patchify策略和多层KV Cache机制,实现了高效的长视频训练与长上下文视频生成。