潞晨科技正式推出 Open-Sora 2.0，全新开源的 SOTA 视频生成模型

AI 视频生成领域迎来重大突破，潞晨科技正式推出 Open-Sora 2.0，全新开源的 SOTA 视频生成模型。仅用 20 万美元（224 张 GPU）成功训练出商业级 11B 参数视频生成大模型，性能直追 HunyuanVideo 和 30B 参数的 Step-Video。而且与 OpenAI Sora 闭源模型的性能差距从 4.52% 缩减至仅 0.69%，几乎实现了性能全面追平。本次升级主要包括以下亮点：

引入多种高效训练方法，降低 5-10 倍训练成本；
通过高压缩比视频自编码器，将推理时间缩短至单卡 3 分钟以内；
提供 720p 高分辨率和 24 FPS 流畅视频生成能力；
动作幅度更加可控，可根据需求精确设定人物或场景动作的表现程度；
丰富场景切换效果，视频画质细腻清晰，色彩层次丰富，画面细节与过渡平滑度表现出色；
采用 3D 全注意力机制和 MMDiT 架构，强化模型建模能力；
开源完整训练代码，包含高效的序列并行、ZeroDP 等优化技术。

此次潞晨科技依然全面开源模型权重、推理代码及分布式训练全流程，旨在大幅降低高质量视频生成的门槛。

参考文献：
[1] GitHub：https://github.com/hpcaitech/Open-Sora
[2] https://hpcaitech.github.io/Open-Sora/

（文：NLP工程化）

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

发表评论 取消回复

发表评论取消回复