Magi-1 开源&刷屏：首个高质量自回归视频模型，它的一切信息

Magi-1，开源于北京，五道口

于是，很多朋友发现了：
在视频圈子，Magi-1 映入了大家眼帘

不到两天，在 GitHub 上拿到了 1.7k Star

这全球首个高质量自回归视频模型

着实的，给中国开源，涨了波脸

国产 Magi-1，在物理真实性上，断层第一

在物理真实性测试中，比谷歌的 VideoPoet，还高出 3 个 Sora

github.com/google-deepmind/physics-IQ-benchmark

Twitter 上的讨论

来看看效果

相信我，这是一个划时代的发布

A sense of speed /Xixi

Meditation /Wild Pusa

Violinist /Xixi

TwitterInnocent /Eddy

干得漂亮

务实一点说，Magi-1 在画面稳定性上，还有所欠缺。

但在常见场景中，开源的 Magi，已经能跟可灵们掰掰手腕了。

令人敬佩的是，他们验证了自回归视频模型 这条路线，使模型可以遵循现实的因果律，在相关推理任务中，遥遥领先。

你没看错，包括 Sora 在内的各类视频生成 AI，是把整个片段同时画出来，不区分“先发生什么，后发生什么”，不存在时间，更无法遵从相关因果律。

而 Magi-1 大胆革新，做到了，而且做的很不错。

益于自回归架构的天然优势，Magi 在预测物理行为方面，远超现有模型的精度

在指令遵循和运动质量方面，Magi 表现不错

然后，这个 Magi 开源了，从4.5B到24B：

https://huggingface.co/sand-ai/MAGI-1

再然后，他们还上线了一个可以开箱即用的产品：

https://sand.ai/magi

Magi-1 背后的团队，是 Sand.ai

创始人是曹越，「光年之外」联合创始人。

之前，在他办公室里聊了半个下午，问了大量私货，有了这篇文章

本篇，应是对 Sand.ai 最全面的介绍了

是谁做的？

创始人是曹越。

清华特等奖学金，ICCV 马尔奖（Marr Prize），Swin Transformer 共同一作，博士毕业后加入微软亚洲研究院，后任智源研究院视觉中心负责人。

2023 年年初，他和王慧文、袁进辉共同创立了大模型公司「光年之外」，担任算法联创。

之后，光年之外被收购。

袁进辉成立了「硅基流动」，而曹越则继续深耕视频生成方向，并2024 年正式创立 Sand.ai（三呆科技…这名字太抽象了），Magi-1 便是团队推出的首个模型产品。

我眼中的曹越

曹越非常敏锐，思维极为清晰，不讲玄虚，会把一个个概念拆成因果讲清楚。

有一天，在 Sand.ai 的办公室，我们就视频生成的未来，聊了整个下午。

主题很直接

视频能不能被真正「生成」？

如果能，路径应该是怎样的？

我们聊了视频生成的各类方法，比如 DiT。看起来高效、效果也不错，但它本质上是把几秒钟的视频，一次性生成。

生成视频的时候，过去和未来是同时出现，不存在时间。

因此，在视频生成的 AI 中：控制“场景”容易，控制“发生”很难。

问题很直白

如果视频是时间的表达，那生成它的方式，就必须能处理时间。

这也是 Magi-1 的起点：如果想让视频更符合人的认知，就要有时间因果性，就不能假装时间是静态的。

于是，Magi-1 便开始了此路径上的探索：秒内 Dit，秒外自回归，每一段视频都是基于前面的内容，往下推进。

这也便有了后面会看到的 chunk-by-chunk 结构，也是为什么它可以精确到每一秒发生什么、能接着拍下去，而不是只是“画出一段动图”。

团队不大，出身很硬

Sand.ai 的团队不大，三十人的团队，几乎都是技术人员，其中不乏科研出身的算法专家。

联合创始人张拯，也是 Swin Transformer 的作者之一，ACM 亚洲金牌，MSRA 老同事。他和曹越在微软合作了五年，一起打磨过不少视觉模型。 Google Scholar 引用接近 5 万，算是这条路线里默默干活、极少抛头露面的那种人。

还有几位核心算法，背景都差不多——MSRA、智源、清华、华中科大。工程团队亦人才济济，清华、北大、南大、厦大。

这也决定了他们在技术选型上的很多不寻常。比如：

• 不做并发采样；
• 不用标准扩散路径，而是自回归扩散；
• 自写推理系统，从 attention 到 chunk cache 都是自己改的。

把整个结构从头写一遍。

三轮融资，一路没断

Sand.ai 自打创立，便在 VC 圈里到了很多关注：目前已经完成三轮、总计约六千万美金。

几轮融资的主领投方分别是：源码资本、今日资本、经纬中国。

跟投方也很强大：创新工场、IDG、襄禾、商汤、华业天成，再加上一些业内的个人投资者。

可见，Sand.ai 很早就被人看懂了方向、认了出来、下了重注：

• 这是新的路线探索；
• 能打穿结构 +基础设施；
• 能 scale 的训练、推理体系。

不在追随谁，而在走自己的路

技术原理

上面浅提了过，比如 OpenAI 的 Sora 这样 DiT 模型的工作方式：一口气生成几秒视频，然后拼接起来播放。

这听上去没什么问题，甚至很高效。但本质上，它们是并发生成，没有时间顺序。你写一个 prompt，模型一次性把整个片段画出来，未来和过去是同时想象出来的：不区分先发生什么，后发生什么。

这就会带来一个问题：生成的视频，未必遵循现实的因果律，缺乏真正的时间感

Magi-1 的解决思路

它采用的是一种叫做 chunk-by-chunk 的自回归生成 方法。

视频被划分为一个个时间片段（chunk），每段比如 24 帧，相当于 1 秒的视频。每生成一段，才会进入下一段。下一段的内容，要基于上一段的内容来生成。

这个结构天然地保留了因果性，时间在模型里是顺序展开的，而不是拼装进来的。

具体来说，它使用一种叫做 block-causal attention 的机制：

• 块内是全连接，保留短时段的一致性；
• 块与块之间是单向连接，只能“看前不看后”。

这种方式，保证了每一段的生成都带着“记忆”，并且不会被未来的信息干扰。

Magi-1 的训练方法

训练时，模型不是一次性还原整个视频，而是逐段对每个 chunk 进行去噪。每个 chunk 会被注入不同程度的噪声（前面的噪声少，后面的噪声多），模型的任务是学习如何根据时间顺序去还原这些 noisy chunk。

论文中这一机制叫作：时间上单调递增的噪声注入（temporally progressive noise levels）。

生成时，Magi-1 会在 chunk 被“去噪到一定程度”时提前进入下一个 chunk 的生成。所以模型可以流式生成、边播边推，同时还能保持时间上的逻辑闭环。

通过这些，Magi-1 有了几个非常实际的能力：

• 无限时长生成：可以不断续写，一直“接着生成”，没有固定长度限制；
• 每秒控制粒度：可以对每个 chunk 加不同的 prompt，精确指定什么时候发生什么；
• 推理成本固定：每个 chunk 的计算开销是定值，长视频不爆显存；

全新的算法范式，带来了业界从未解决过的工程挑战。

在之前，业界没有解决方案可以同时满足：

视频的超长序列
自回归与 Chunk 结合带来的复杂 attention
千卡集群训练

为了解决这个问题，Sand.ai 从底层通信元语到上层调度算法，都做了全栈创新，并把全套解决方案开源给技术社区。

能做视频续写

有意思的是，Magi-1 不止支持 T2V（文本生视频）和 I2V（图生视频），它的结构天然也能做 V2V（视频续写），而且效果远好于 I2V 模拟续写。

论文第16页的实验对比非常直接：

• 笔旋转的例子里，I2V 模型完全预测不了旋转的速度；
• Magi-1 的 V2V 模式则能把动作延续得很自然，因为它确实“看到了前面”。

推理效率下了功夫

它的推理过程是“并行去噪 + pipeline 式推进”，最多可以同时生成 4 个 chunk，每段都带有历史记忆，但不会因为长度变长而爆显存。得益于它的自回归结构和 KV 缓存机制，哪怕是分钟级视频，系统推理的峰值资源也不会变。

在论文第2页有一句话说得很清楚：

“Magi-1 的推理峰值资源使用量，与视频长度无关。”

这一点对于部署来说意义非常大：它真的可以跑长内容、实时生成，不靠截断、不靠分段预处理。

再补充点细节

Magi-1 的结构不是从 Diffusion Transformer 拿过来直接用，而是在 attention、FFN、条件编码、位置编码上都做了大量改进。

包括：

• 3D 可学习 RoPE 位置编码；
• 平行 attention 结构（合并 self-attn 和 cross-attn）；
• SwiGLU 激活 + sandwich norm 稳定训练；
• QK-Norm + GQA 以节省内存并提升收敛稳定性；

这些都藏在结构实现里，没有在首页图表里体现，但在训练大模型时非常关键。

回顾一下

Magi-1 做的是这样一件事：

它让视频生成这件事，从“像画图一样生成结果”，变成了“像连续剧一样，一集一集生成”。

这或许是一个新的范式。而这一切，现在已经开源了。

开源了，而且是全套交付

是真的，全放了。

模型权重，从 4.5B 到 24B 的全尺寸都开了。推理脚本和训练代码也都在，支持文本生成视频、图像生成视频，以及视频续写。用的是标准 HuggingFace 接口，也有 CLI 和 Gradio 的完整推理链路。

部署也比较轻，不是那种只能跑在高性能集群里的模型。最小版本一张 4090 就能跑，开箱即用，推理成本也不会随着视频长度线性增长。

伴随代码开源的同时，也有一份完整技术报告（61页）：从机制设计到训练策略、推理流程、基础设施都讲清楚了，把一整个系统的内部文档摊给你看，就像 DeepSeek 那种风格。

还有个产品

除了开源，它还有个产品，已经能用了。

官网在这：

你开源上传一张图，写一句话，它就能生成视频。每次生成的时长由你控制，也可以开启“增强理解”“高质量”等选项。

最妙的是，它支持从任意时间点续写。你可以先生成一小段，然后从中间某一秒接着写下去，或者换个 prompt 接续新镜头。不是“生一个开头”，而是一个可以不断拓展、不断演化的生成工具。

开源和产品一起推出来，这在视频模型里并不常见。

最后

Magi-1 想做的事其实挺朴素的：让视频这件事，能被生成，符合规律。

它没有走当下最主流的路线，也没有追求最炸的效果，而是选了一条更难但更扎实的路径：从时间出发，构建更真实的物理世界模拟器。

这件事的意义，在于它跑通了一个原本只有想象的可能

最后，用曹越的话来结尾

语言模型，偏向于虚拟世界；

视频模型，更偏向于现实世界。

目前的视频模型，还在一个比较早期的阶段，但长期所谓的“世界模型”，会在这个方向上。

（文：赛博禅心）

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31