潞晨科技正式推出 Open-Sora 2.0,全新开源的 SOTA 视频生成模型

AI 视频生成领域迎来重大突破,潞晨科技正式推出 Open-Sora 2.0,全新开源的 SOTA 视频生成模型。仅用 20 万美元(224 张 GPU)成功训练出商业级 11B 参数视频生成大模型,性能直追 HunyuanVideo 和 30B 参数的 Step-Video。而且与 OpenAI Sora 闭源模型的性能差距从 4.52% 缩减至仅 0.69%,几乎实现了性能全面追平。本次升级主要包括以下亮点:

  • 引入多种高效训练方法,降低 5-10 倍训练成本;
  • 通过高压缩比视频自编码器,将推理时间缩短至单卡 3 分钟以内;
  • 提供 720p 高分辨率和 24 FPS 流畅视频生成能力;
  • 动作幅度更加可控,可根据需求精确设定人物或场景动作的表现程度;
  • 丰富场景切换效果,视频画质细腻清晰,色彩层次丰富,画面细节与过渡平滑度表现出色;
  • 采用 3D 全注意力机制和 MMDiT 架构,强化模型建模能力;
  • 开源完整训练代码,包含高效的序列并行、ZeroDP 等优化技术。

此次潞晨科技依然全面开源模型权重、推理代码及分布式训练全流程,旨在大幅降低高质量视频生成的门槛。

参考文献:
[1] GitHub:https://github.com/hpcaitech/Open-Sora
[2] https://hpcaitech.github.io/Open-Sora/



(文:NLP工程化)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往