
一、项目概述
SkyReels-V2 是昆仑万维SkyReels团队推出的无限时长电影生成模型,基于扩散强迫(Diffusion Forcing)框架,结合多模态大语言模型(MLLM)、多阶段预训练、强化学习等技术,生成高质量、无限时长的视频内容。该模型解决了现有技术在提示词遵循、视觉质量、运动动态和视频时长协调上的挑战,支持故事生成、图像到视频合成、摄像导演功能和多主体一致性视频生成等多种应用场景。模型及相关代码已开源,为创意内容制作和虚拟仿真领域提供强大的工具。

二、技术原理
(一)多模态大语言模型(MLLM)
SkyReels-V2 使用多模态大语言模型生成视频的初始描述,并结合子专家模型(如镜头类型、镜头角度、镜头位置、表情和摄像机运动等)提供更详细的镜头语言描述。通过人工标注和模型训练,进一步提升对镜头语言的理解能力,显著提高生成视频的提示词遵循能力。
(二)多阶段预训练
1.渐进式分辨率预训练:从低分辨率(256p)逐步提升到高分辨率(720p),逐步增强模型的生成能力。
2. 多阶段后训练优化:包括初始概念平衡的监督微调(SFT)、运动特定的强化学习(RL)训练、扩散强迫框架(DF)训练和高质量 SFT,确保模型在不同方面达到最佳性能。
(三)强化学习(Reinforcement Learning, RL)
基于强化学习优化运动质量,解决现有模型在运动动态性、流畅性和物理合理性方面的不足。用半自动数据收集管道生成偏好对比数据对,训练奖励模型并进行直接偏好优化(DPO),提升运动质量。
(四)扩散强迫框架(Diffusion Forcing)
为每个帧分配独立的噪声水平,实现视频生成的无限扩展能力。用非递减噪声时间表,将连续帧的去噪时间表搜索空间从\(O(1e^{48})\) 降低到 \(O(1e^{32})\),显著提高生成效率。
(五)高效的数据处理和优化
整合通用数据集、自收集媒体和艺术资源库,基于多阶段过滤和标注,确保训练数据的质量。用FP8 量化、多 GPU 并行和模型蒸馏等技术,显著降低推理时间和计算成本,提高模型的实用性。

三、主要功能
(一)无限时长视频生成
SkyReels-V2 最突出的特点之一是其能够生成理论上无限长的视频内容。这一功能突破了传统视频生成模型在时长上的限制,使得创作者可以生成任意长度的视频,而不再受限于模型的固有约束。这为长篇叙事、连续场景的创作提供了极大的灵活性,无论是电影、电视剧还是其他长视频内容,都可以通过 SkyReels-V2 实现高质量的生成。
(二)故事生成
SkyReels-V2 不仅能够生成视频,还能根据叙事文本提示编排复杂多动作序列,实现动态叙事。这意味着用户可以通过输入详细的文本描述,如故事的情节、角色的动作和情感变化,来指导模型生成连贯的视频内容。
(三)图像到视频合成
SkyReels-V2 提供了两种方法,包括微调全序列文本到视频扩散模型(SkyReels-V2-I2V)和扩散强迫模型与帧条件结合(SkyReels-V2-DF),将静态图像转化为连贯的视频。
(四)摄像导演功能
SkyReels-V2 支持生成流畅且多样化的摄像机运动效果,提升视频的影视感。这一功能使得模型可以模拟各种摄像机运动,如平移、旋转、缩放等,从而生成具有专业影视感的视频内容。
(五)元素到视频生成
SkyReels-V2 还支持将任意视觉元素(如人物、物体和背景)组合成由文本提示引导的连贯视频。这一功能特别适合短剧、音乐视频和虚拟电商内容创作等应用。
四、应用场景
(一)电影制作
电影制作中,长镜头和复杂叙事是提升故事连贯性和观众沉浸感的关键。SkyReels-V2 能够生成无限时长的连贯视频,支持从开场到结尾的完整叙事。
例如,生成一个长达数分钟的长镜头,展示主角从城市街道走进一个神秘的古堡,镜头流畅地跟随主角的行动,同时捕捉周围环境的变化。
(二)广告创作
广告中,动态视频比静态图片更能吸引观众的注意力。SkyReels-V2 可以将静态图片转化为生动的视频内容,增强广告的吸引力和表现力。
例如,将一张展示新款汽车的静态图片转化为一个视频,展示其新款电动汽车在城市街道上行驶的场景。视频中,汽车在不同的街道和环境中穿梭,展示了其性能和设计特点,极大地提升了广告的效果。
(三)视频拍摄辅助
在视频拍摄中,流畅的摄像机运动效果是提升视频质量的重要因素。SkyReels-V2 可以生成各种摄像机运动效果,帮助导演设计和实现复杂的拍摄镜头。
例如,生成一个从高处俯瞰城市的镜头,然后平滑过渡到街道上的特写镜头,展示了城市的繁华和活力。这种流畅的镜头过渡不仅提升了视频的视觉效果,还为导演提供了更多的创意空间。
(四)短剧和音乐视频
短剧和音乐视频的创意内容生成是吸引观众的关键。SkyReels-V2 可以根据文本描述生成相应的视频内容,帮助创作者快速实现创意想法。
例如,在一部音乐视频的制作中,SkyReels-V2 生成了一个场景,展示歌手在舞台上的表演和观众的热烈反应。视频中,歌手的表演充满激情,观众的反应热烈,极大地提升了音乐视频的吸引力。
(五)虚拟现实和游戏开发
虚拟现实和游戏开发中,逼真的虚拟场景和角色动画是提升用户体验和沉浸感的关键。SkyReels-V2 可以生成高质量的虚拟场景和角色动画,帮助开发者快速实现创意想法。
例如,在一款虚拟现实游戏的开发中,SkyReels-V2 生成了一个虚拟游戏世界的场景,包括游戏地图、角色和道具。这些生成的视频不仅提升了游戏的视觉效果,还为开发者提供了高质量的素材,加快了开发进度。
五、快速使用
(一)安装环境
克隆项目代码:
git clone https://github.com/SkyworkAI/SkyReels-V2.git
cd SkyReels-V2
安装依赖:
pip install -r requirements.txt
(二)下载模型
从Hugging Face 下载模型权重:
git clone https://huggingface.co/Skywork/SkyReels-V2-T2V-14B-540P
(三)单GPU 推理
扩散强迫(Diffusion Forcing)生成无限时长视频:
model_id=Skywork/SkyReels-V2-DF-14B-540P
python3 generate_video_df.py \
--model_id ${model_id} \
--resolution 540P \
--ar_step 0 \
--base_num_frames 97 \
--num_frames 257 \
--overlap_history 17 \
--prompt "A graceful white swan with a curved neck and delicate feathers swimming in a serene lake at dawn, its reflection perfectly mirrored in the still water as mist rises from the surface, with the swan occasionally dipping its head into the water to feed." \
--addnoise_condition 20 \
--offload
文本到视频(Text-to-Video)生成:
model_id=Skywork/SkyReels-V2-T2V-14B-540P
python3 generate_video.py \
--model_id ${model_id} \
--resolution 540P \
--num_frames 97 \
--guidance_scale 6.0 \
--shift 8.0 \
--fps 24 \
--prompt "A serene lake surrounded by towering mountains, with a few swans gracefully gliding across the water and sunlight dancing on the surface." \
--offload
(四)多GPU 推理
使用xDiT USP 加速推理:
torchrun --nproc_per_node=2 generate_video_df.py \
--model_id ${model_id} \
--resolution 540P \
--ar_step 0 \
--base_num_frames 97 \
--num_frames 257 \
--overlap_history 17 \
--prompt "A graceful white swan with a curved neck and delicate feathers swimming in a serene lake at dawn, its reflection perfectly mirrored in the still water as mist rises from the surface, with the swan occasionally dipping its head into the water to feed." \
--addnoise_condition 20 \
--use_usp \
--offload \
--seed 42
六、结语
SkyReels-V2 作为昆仑万维开源的无限时长电影生成模型,通过创新的扩散强迫框架和多模态大语言模型技术,为视频生成领域带来了新的突破。它不仅在生成效率和数据质量上表现出色,还大幅降低了数据生成成本。SkyReels-V2 的开源为研究人员和开发者提供了一个强大的工具,用于探索创意内容制作和虚拟仿真中的多样化应用。
七、项目地址
GitHub 仓库:https://github.com/SkyworkAI/SkyReels-V2
arXiv 技术论文:https://arxiv.org/pdf/2504.13074
Hugging Face 模型库:https://huggingface.co/collections/Skywork/skyreels-v2
(文:小兵的AI视界)