AI 视频生成领域迎来重大突破,潞晨科技正式推出 Open-Sora 2.0,全新开源的 SOTA 视频生成模型。仅用 20 万美元(224 张 GPU)成功训练出商业级 11B 参数视频生成大模型,性能直追 HunyuanVideo 和 30B 参数的 Step-Video。而且与 OpenAI Sora 闭源模型的性能差距从 4.52% 缩减至仅 0.69%,几乎实现了性能全面追平。本次升级主要包括以下亮点:
-
引入多种高效训练方法,降低 5-10 倍训练成本; -
通过高压缩比视频自编码器,将推理时间缩短至单卡 3 分钟以内; -
提供 720p 高分辨率和 24 FPS 流畅视频生成能力; -
动作幅度更加可控,可根据需求精确设定人物或场景动作的表现程度; -
丰富场景切换效果,视频画质细腻清晰,色彩层次丰富,画面细节与过渡平滑度表现出色; -
采用 3D 全注意力机制和 MMDiT 架构,强化模型建模能力; -
开源完整训练代码,包含高效的序列并行、ZeroDP 等优化技术。
此次潞晨科技依然全面开源模型权重、推理代码及分布式训练全流程,旨在大幅降低高质量视频生成的门槛。



参考文献:
[1] GitHub:https://github.com/hpcaitech/Open-Sora
[2] https://hpcaitech.github.io/Open-Sora/
(文:NLP工程化)