无限时长电影随便做!昆仑万维开源神器SkyReels-V2让小白也能拍大片

随着人工智能技术的飞速发展,视频生成领域迎来了前所未有的突破。从简单的图像生成到复杂的视频内容创作,AI 模型的能力不断提升。然而,现有的视频生成模型在提示词遵循、视觉质量、运动动态和视频时长等方面仍面临诸多挑战。为了克服这些限制,昆仑万维推出了SkyReels-V2,这是一个基于扩散强迫(Diffusion Forcing)框架的无限时长电影生成模型。能够生成高质量、无限时长的视频内容,为创意内容制作和虚拟仿真领域提供了强大的工具。

一、项目概述

SkyReels-V2 是昆仑万维SkyReels团队推出的无限时长电影生成模型,基于扩散强迫(Diffusion Forcing)框架,结合多模态大语言模型(MLLM)、多阶段预训练、强化学习等技术,生成高质量、无限时长的视频内容。模型解决了现有技术在提示词遵循、视觉质量、运动动态和视频时长协调上的挑战,支持故事生成、图像到视频合成、摄像导演功能和多主体一致性视频生成等多种应用场景。模型及相关代码已开源,为创意内容制作和虚拟仿真领域提供强大的工具。

二、技术原理

(一)多模态大语言模型(MLLM

SkyReels-V2 使用多模态大语言模型生成视频的初始描述,并结合子专家模型(如镜头类型、镜头角度、镜头位置、表情和摄像机运动等)提供更详细的镜头语言描述。通过人工标注和模型训练,进一步提升对镜头语言的理解能力,显著提高生成视频的提示词遵循能力。

(二)多阶段预训练

1.渐进式分辨率预训练:从低分辨率(256p)逐步提升到高分辨率(720p),逐步增强模型的生成能力。

2. 多阶段后训练优化:包括初始概念平衡的监督微调(SFT)、运动特定的强化学习(RL)训练、扩散强迫框架(DF)训练和高质量 SFT,确保模型在不同方面达到最佳性能。

(三)强化学习(Reinforcement Learning, RL

基于强化学习优化运动质量,解决现有模型在运动动态性、流畅性和物理合理性方面的不足。用半自动数据收集管道生成偏好对比数据对,训练奖励模型并进行直接偏好优化(DPO),提升运动质量。

(四)扩散强迫框架(Diffusion Forcing

为每个帧分配独立的噪声水平,实现视频生成的无限扩展能力。用非递减噪声时间表,将连续帧的去噪时间表搜索空间从\(O(1e^{48})\) 降低到 \(O(1e^{32})\),显著提高生成效率。

(五)高效的数据处理和优化

整合通用数据集、自收集媒体和艺术资源库,基于多阶段过滤和标注,确保训练数据的质量。FP8 量化、多 GPU 并行和模型蒸馏等技术,显著降低推理时间和计算成本,提高模型的实用性。

三、主要功能

(一)无限时长视频生成

SkyReels-V2 最突出的特点之一是其能够生成理论上无限长的视频内容。这一功能突破了传统视频生成模型在时长上的限制,使得创作者可以生成任意长度的视频,而不再受限于模型的固有约束。这为长篇叙事、连续场景的创作提供了极大的灵活性,无论是电影、电视剧还是其他长视频内容,都可以通过 SkyReels-V2 实现高质量的生成。

(二)故事生成

SkyReels-V2 不仅能够生成视频,还能根据叙事文本提示编排复杂多动作序列,实现动态叙事。这意味着用户可以通过输入详细的文本描述,如故事的情节、角色的动作和情感变化,来指导模型生成连贯的视频内容

(三)图像到视频合成

SkyReels-V2 提供了两种方法,包括微调全序列文本到视频扩散模型(SkyReels-V2-I2V)和扩散强迫模型与帧条件结合(SkyReels-V2-DF),将静态图像转化为连贯的视频。

(四)摄像导演功能

SkyReels-V2 支持生成流畅且多样化的摄像机运动效果,提升视频的影视感。这一功能使得模型可以模拟各种摄像机运动,如平移、旋转、缩放等,从而生成具有专业影视感的视频内容。

(五)元素到视频生成

SkyReels-V2 还支持将任意视觉元素(如人物、物体和背景)组合成由文本提示引导的连贯视频。这一功能特别适合短剧、音乐视频和虚拟电商内容创作等应用

四、应用场景

(一)电影制作

电影制作中,长镜头和复杂叙事是提升故事连贯性和观众沉浸感的关键。SkyReels-V2 能够生成无限时长的连贯视频,支持从开场到结尾的完整叙事。

例如,生成一个长达数分钟的长镜头,展示主角从城市街道走进一个神秘的古堡,镜头流畅地跟随主角的行动,同时捕捉周围环境的变化。

(二)广告创作

广告中,动态视频比静态图片更能吸引观众的注意力。SkyReels-V2 可以将静态图片转化为生动的视频内容,增强广告的吸引力和表现力

例如,将一张展示新款汽车的静态图片转化为一个视频,展示其新款电动汽车在城市街道上行驶的场景。视频中,汽车在不同的街道和环境中穿梭,展示了其性能和设计特点,极大地提升了广告的效果。

(三)视频拍摄辅助

在视频拍摄中,流畅的摄像机运动效果是提升视频质量的重要因素。SkyReels-V2 可以生成各种摄像机运动效果,帮助导演设计和实现复杂的拍摄镜头。

例如,生成一个从高处俯瞰城市的镜头,然后平滑过渡到街道上的特写镜头,展示了城市的繁华和活力。这种流畅的镜头过渡不仅提升了视频的视觉效果,还为导演提供了更多的创意空间。

(四)短剧和音乐视频

短剧和音乐视频的创意内容生成是吸引观众的关键。SkyReels-V2 可以根据文本描述生成相应的视频内容,帮助创作者快速实现创意想法。

例如,在一部音乐视频的制作中,SkyReels-V2 生成了一个场景,展示歌手在舞台上的表演和观众的热烈反应。视频中,歌手的表演充满激情,观众的反应热烈,极大地提升了音乐视频的吸引力。

(五)虚拟现实和游戏开发

虚拟现实和游戏开发中,逼真的虚拟场景和角色动画是提升用户体验和沉浸感的关键。SkyReels-V2 可以生成高质量的虚拟场景和角色动画,帮助开发者快速实现创意想法。

例如,在一款虚拟现实游戏的开发中,SkyReels-V2 生成了一个虚拟游戏世界的场景,包括游戏地图、角色和道具。这些生成的视频不仅提升了游戏的视觉效果,还为开发者提供了高质量的素材,加快了开发进度。

五、快速使用

(一)安装环境

克隆项目代码:

git clone https://github.com/SkyworkAI/SkyReels-V2.gitcd SkyReels-V2

安装依赖:

pip install -r requirements.txt

(二)下载模型

Hugging Face 下载模型权重:

git clone https://huggingface.co/Skywork/SkyReels-V2-T2V-14B-540P

(三)单GPU 推理

扩散强迫(Diffusion Forcing)生成无限时长视频:

model_id=Skywork/SkyReels-V2-DF-14B-540Ppython3 generate_video_df.py \--model_id ${model_id} \--resolution 540P \--ar_step 0 \--base_num_frames 97 \--num_frames 257 \--overlap_history 17 \--prompt "A graceful white swan with a curved neck and delicate feathers swimming in a serene lake at dawn, its reflection perfectly mirrored in the still water as mist rises from the surface, with the swan occasionally dipping its head into the water to feed." \--addnoise_condition 20 \--offload

文本到视频(Text-to-Video)生成:

model_id=Skywork/SkyReels-V2-T2V-14B-540Ppython3 generate_video.py \--model_id ${model_id} \--resolution 540P \--num_frames 97 \--guidance_scale 6.0 \--shift 8.0 \--fps 24 \--prompt "A serene lake surrounded by towering mountains, with a few swans gracefully gliding across the water and sunlight dancing on the surface." \--offload

(四)多GPU 推理

使用xDiT USP 加速推理:

torchrun --nproc_per_node=2 generate_video_df.py \--model_id ${model_id} \--resolution 540P \--ar_step 0 \--base_num_frames 97 \--num_frames 257 \--overlap_history 17 \--prompt "A graceful white swan with a curved neck and delicate feathers swimming in a serene lake at dawn, its reflection perfectly mirrored in the still water as mist rises from the surface, with the swan occasionally dipping its head into the water to feed." \--addnoise_condition 20 \--use_usp \--offload \--seed 42

六、结语

SkyReels-V2 作为昆仑万维开源的无限时长电影生成模型,通过创新的扩散强迫框架和多模态大语言模型技术,为视频生成领域带来了新的突破它不仅在生成效率和数据质量上表现出色,还大幅降低了数据生成成本SkyReels-V2 的开源为研究人员和开发者提供了一个强大的工具,用于探索创意内容制作和虚拟仿真中的多样化应用。

七、项目地址

GitHub 仓库:https://github.com/SkyworkAI/SkyReels-V2

arXiv 技术论文:https://arxiv.org/pdf/2504.13074

Hugging Face 模型库:https://huggingface.co/collections/Skywork/skyreels-v2


(文:小兵的AI视界)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往