对话阶跃星辰段楠:“我们可能正触及 Diffusion 能力上限”

「具备更深层次理解能力的视觉领域基础模型(可能带来视觉的“GPT-3时刻”),有望在未来 1-2 年内出现。」


对话 | 唐小引,CSDN&《新程序员》执行总编
嘉宾 | 段楠,阶跃星辰 Tech Fellow
责编丨张红月
出品 | AI 科技大本营(ID:rgznai100)
这场由 AI 驱动的视觉内容革新浪潮中,阶跃星辰的 Tech Fellow、前微软亚洲研究院资深研究员段楠,正站在探索的前沿。其团队在今年 2 月和 3 月开源两个重要的视频生成模型 —— 30B 参数的文生视频模型 Step-Video-T2V,以及基于此训练的 30B 参数图生视频模型 Step-Video-TI2V在 AI 视频生成领域引起了广泛关注。
段楠清醒地指出,尽管当前的视频生成技术(如 Diffusion 模型)已能产出惊艳的视觉片段,但我们可能正触及其能力的“天花板”,真正的、具备深度理解能力的视频乃至多模态基础模型,其革命性的突破尚在孕育之中。
段楠,阶跃星辰Tech Fellow,带领研究团队构建以语言和视频为中心的多模态基础模型。此前,他曾任微软亚洲研究院资深首席研究员、自然语言计算团队研究经理(2012年至2024年)。段博士是中国科学技术大学和西安交通大学兼职博导,天津大学兼职教授。他主要从事自然语言处理、代码智能、多模态基础模型、智能体等研究。
在 4 月 18-19 日举行的 2025 全球机器学习技术大会(ML-Summit)上,段楠就“视频生成基础模型的进展、挑战与未来”发表了主题演讲,并在会后接受了 CSDN 的深度直播专访。
段楠预测道,具备更深层次理解能力的视觉领域基础模型(可能带来视觉的“GPT-3时刻”),有望在未来 1-2 年内出现。
为什么他会有此判断?在这场信息量巨大的对话中,段楠分享了多个关于视频生成及多模态 AI 未来的核心洞察:
  • 视频 Scaling Law 的独特性: 与语言模型不同,当前 Diffusion 视频模型(即便达到 30B 参数)在泛化能力上的 Scaling Law 表现并不显著,但其记忆能力很强。中等规模参数(如 15B)可能在效率与性能间取得更好平衡。
  • 超越“生成”到“理解”: 目前主流视频生成类似“文本到视觉的翻译”,存在上限。真正的突破在于模型需具备深度视觉理解能力,而非仅仅像素生成,这需要学习范式的转变,从“映射学习”到类似语言模型的“因果预测学习”。
  • AR 与 Diffusion 融合: 未来的模型架构趋势可能是自回归(Autoregressive)与扩散(Diffusion)模型的融合,以期结合两者优势,更好地服务于视频乃至多模态内容的理解与生成。
  • 数据仍是基石与瓶颈: 高质量、大规模、多样化的自然数据(而非过度依赖合成数据进行基础训练)对构建强大的基础模型至关重要。数据处理、标注的复杂性与成本是巨大挑战。
  • 视觉的“Few-Shot Learning”时刻: 下一代视觉基础模型的关键能力将是强大的少样本学习(Few-Shot Learning)能力,使其能快速适应并解决新的视觉任务,类似 GPT-3 为 NLP 带来的变革。
  • 可用性与影响力并重: 技术创新固然重要,但模型的易用性、能否被广大开发者和创作者实际使用起来,是衡量其影响力的关键,也是研究需要兼顾的目标。
  • AI 与具身智能的未来: 视频理解能力的进步,将为具身智能、机器人等需要与物理世界交互的 AI 应用提供核心的感知能力。
这篇专访将带您深入剖析视频生成乃至多模态 AI 领域的前沿思考、技术瓶颈与未来蓝图,无论您是 AI 研究者、开发者还是对未来科技充满好奇的观察者,都能从中获得深刻启发。
以下是与段楠老师的正式访谈:(为方便阅读,编辑进行了适当的文本优化)
CSDN:我们邀请到的是期待已久,现在在阶跃星辰担任 Tech Fellow 的段楠老师。段老师,请先给大家打个招呼,做一下自我介绍。
段楠:大家好,我叫段楠。现在在阶跃星辰工作,主要负责视频生成相关的项目。在此之前,我在微软亚洲研究院从事了十多年的自然语言处理研究。今天非常荣幸能以这种直播的形式和大家交流,这对我来说是第一次。
CSDN:这是您第一次参加直播吗?
段楠:是的,真的是第一次。
CSDN:那太荣幸了,段老师的直播首秀献给了 CSDN 直播间。
段楠:这是我的荣幸。
CSDN:我注意到您在阶跃星辰的 Title 是“Tech Fellow”,这在创业公司中比较少见,一般外企会更常用。您可以介绍一下这个 Title 的考虑吗?
段楠:这个 Title 的形式不必太在意。我本质上还是一名研究员,在继续深入研究自己感兴趣的领域,只是换了个工作平台。
CSDN:段老师在全球机器学习技术大会上带来了关于“视频生成基础模型的进展、挑战与未来”的分享,这也是您加班加点准备的最新成果。可否请您先简要介绍一下演讲的核心内容,特别是希望大家关注的重点?
段楠:今天的报告算是我过去一年在阶跃星辰所做项目的一个阶段性总结。我之前在微软亚洲研究院时,研究兴趣就逐渐从自然语言处理、多语言、代码智能转向多模态。在阶跃星辰,我将之前在视觉视频生成方面的探索,结合公司需求,从零到一地实践起来。
报告主要介绍了我们在 2 月和 3 月开源的两个模型:30B 参数的文生视频模型 Step-Video-T2V,以及基于此训练的 30B 参数图生视频模型 Step-Video-TI2V。这份报告相对中规中矩,主要梳理了这个方向在现阶段 SOTA(State-of-the-Art)模型的方方面面,包括模型结构设计、数据处理流程、训练效率优化等。
通过从 4B 到 30B 模型的研发,我意识到当前这代基于 AIGC 的视频生成模型范式可能存在上限。报告结尾也简要提及了对未来的一些想法和规划。
CSDN:您提到报告中规中矩,没有过多体现科研上的技术创新。那能否先分享一下您认为的、在 AI 领域近五年称得上里程碑式的技术创新有哪些?
段楠:从我的标准来看,近五年 AI 领域的重大创新包括:
  • BERT 模型:它极大地提升了自然语言的表征能力。之后 NLP 领域形成了编码器(如 BERT)、编码器-解码器(如 T5)和纯解码器(如 GPT)三足鼎立的局面。
  • GPT-3 模型:当数据和参数规模达到一定程度后,展现出的少样本学习(few-shot learning)能力是一个里程碑,基本确立了模型架构的方向。
  • InstructGPT/ChatGPT:通过指令对齐和强化学习(RLHF),使得模型能极好地遵循指令,这是又一个重大里程碑,基本奠定了 NLP 的范式。
  • DeepSeek 系列模型:在国内,DeepSeek 做出了一系列非常出色的模型(如Math、Code、V 系列及 R1),不仅性能优异,且能让大家实际用起来,非常了不起。
  • Sora 模型:在多模态生成领域,Sora 的出现真正让视频生成成为焦点。
  • GPT-4o/Gemini 2.5:这类模型真正将图像和文字的统一理解推向了新的高度,非常关键。
CSDN:您认为目前的工作与 Sora 等带来的效应相比尚有距离,但打好基础是走向那个方向的前提。能否分享一下在基础设施构建(Infra)方面,您踩过的坑以及学到的经验,给其他团队一些借鉴?
段楠:这个项目除了我们团队成员的努力,也得到了公司数据库团队和系统团队的大力支持。从模型、数据、系统三方面分享一些经验:
模型层面
  • Full Attention:早期尝试过时空分离再堆叠的结构,后来发现 Full Attention 机制能让信息在模型内部充分交互,对运动幅度提升很大,这已是共识。
  • 架构选择(DIT + Cross Attention vs MMDIT):我们选择了 DIT 加 Cross Attention,而像 Meta 的 Movie Gen 和阿里的万相(Wan)也是类似架构。一些闭源模型或大厂可能倾向于 MMDIT(尽早融合文本和视觉信息)。理论上 MMDIT 对指令控制可能更好,但我们选择前者也考虑了模型未来向视觉基础模型演进的兼容性。这并非最优选择,各有优劣。
  • 模型规模(30B):选择 30B 是为了探索模型规模与效果的关系。结论是,Diffusion 模型的 Scaling Law 在 4B 到 30B 区间,泛化能力提升不如语言模型明显,但记忆能力很强。对于追求效率和性能平衡,15B 左右可能是个不错的选择。若要探索 AGI 或模型上限且资源充足,可以继续调优或尝试更大模型。
数据层面
  • 数据处理至关重要。包括视频切分、水印字幕处理、内容描述、美感度、运动性、清晰度、镜头抖动、镜头语言标注等,都需要投入巨大精力,并且要亲力亲为。
系统层面
  • 拥有强大的系统团队支持非常关键。在此也感谢阶跃星辰的系统团队,他们非常强大,我从他们身上学到很多,对项目的支持至关重要。
CSDN:在多模态模型实践中,如果必须选一个最棘手且最关键的环节,如果做不好整个模型项目都无法推进,您觉得是什么?
段楠:这取决于前提条件。如果资源充足,数据是最棘手的。如果资源相对有限,那么数据和系统都会变得非常棘手。从模型算法本身来说,如果不刻意强调下一代或新颖性,目前主流 AI 领域多数 Topic 的模型架构是相对明确的。在这些架构之上,训练、调参、推理的细节非常多。对于相对确定性高的项目,目前看来,系统和数据的重要性可能大于算法本身。
CSDN:听起来阶跃内部是多团队协作,您主要负责模型这块吗?
段楠:因为在我们做这件事之前,DIT、VAE 等技术已经存在,我们是将这些模块组合起来。我主要负责整个模型的训练,这是多团队协作的成果。
CSDN:您提到最初对 30B 参数模型的效果是打问号的,实践后感觉中等参数或许已足够。那未来还会继续探索更大参数的模型吗?
段楠:会的,但这有个前提。我说中等参数模型 OK,是因为在阶跃星辰,我们需要考虑应用层面的挑战,即效率和质量的平衡。
但从另一个角度看,我认为当前 Diffusion 这代模型的上限是存在的。要向前走,视频模型需要更强地遵循物理规律,并且不仅仅是做生成。NLP 领域的成功模型是通过生成的方式获得了更强的理解能力,生成只是展示结果的方式。视频领域也应如此,通过类似范式让视觉模型具备更强的视觉理解能力。这种能力在 NLP 那边可能需要几十 B 以上的参数才能涌现出 in-context learning。
现在的视频生成模型,其训练数据是“文字描述 -> 视觉视频”,这和十几年前的机器翻译类似。而成功的 NLP 模型是通过预测下一个 token 的方式,学习信息中的因果和上下文关系。
因此,从模型规模上看,之所以还要探索更大模型,以及我为何选择 DIT+Cross Attention 结构,是因为我认为视频有机会成为像大语言模型那样的、在视觉领域的理解与生成统一的模型,并能与语言无缝结合。这是我们团队近期在探索的方向。
CSDN:您刚才提到了视频生成在未来一到两年内面临的挑战,以及您对下一代模型的思考。目前工业界和学术界在这些方向上,有哪些探索进展是您认为值得关注的?或者说,您观察到的解决方案是怎样的?以及您后面提到的 Scaling Law 问题。
段楠:在多模态理解与生成统一模型方面,目前一个大方向是自回归(Autoregressive)与 Diffusion 的融合。单纯将视觉信号转为离散 token,我们早先在微软时就做过,发现对生成质量损失较大。因此,用连续表征做视觉理解生成是比较正确的方向。
目前纯视觉生成领域 Diffusion仍是SOTA,但NLP成功模型多为Autoregressive。我个人看好的方向是:自回归与 Diffusion 的融合
将视频融入该框架,这会带来新挑战。图像生成一帧,错误累积问题不大;但视频长达几百甚至上千帧,纯 AR 方法会有严重的错误累积。
AR 模型逐 token 预测效率极低,对视频尤其如此。NLP 中的稀疏机制(MoE、MRA 等)未来可能会应用于视觉生成与理解模型。
保证长视频的一致性、运动规律、训练推理效率,每一块都是巨大挑战。
CSDN:我使用视频生成工具时,常感生成速度慢,等待时间长。虽然相比人工制作视频已快很多,但如何进一步提升速度和质量,同时延长生成时长,这应该是你们核心要解决的问题吧?
段楠:是的。就像翻译技术的发展,从少数人掌握到人人可用。视频生成也在经历类似过程,降低了内容创作门槛。如何让创作者以更低成本、更快地获得高质量结果,是我们需要努力的方向。我相信语言模型领域发生的事情,在视觉领域同样会发生,未来能通过下一代大模型更好地支持高质量内容创作。
核心是推理速度和质量保证。目前一些好的生成案例,更像是模型在训练数据中见过类似分布的内容较多,形成了“下意识”反应。
CSDN:您前面提到开源的 Step-Video 的两个模型,能否介绍一下它们的效果如何?以及开源后社区、学术界或工业界的反馈是怎样的?
段楠:我们的两个模型各有特色:
  • 文生视频模型 Step-Video-T2(30B):在视频运动性上做了加强,主要通过数据和训练策略实现。在体育运动、物理规律遵循方面表现不错。今年 1 月底 2 月初发布时,与国内外主流模型对比,在开源模型中应属 SOTA,在某些维度上也很有特色。
  • 图生视频模型 Step-Video-TI2V(30B):由于训练初期接触了大量二次元动漫数据,因此在这类风格上质量很好。我们也与万兴等产品做过对比。
CSDN:您团队目前规模多大?是包含了模型、数据、系统所有部分吗?
段楠:算上实习生大概十几个人。做这个项目时人更少。数据和系统部分有其他组的同事支持。
CSDN:那社区的主要反馈是什么?
段楠:最大的反馈是模型太大了(30B),普通 AIGC 创作者难以驾驭。
这确实给了我启示:一个综合可用的模型,在应用社区比一个追求上限的模型下载量更大。模型不仅要追求上限,也要考虑易用性,让开发者和创作者能用起来。这点之前确实考虑不多,因为当时更关心模型上限和最终能力,这关系到是否需要下一代模型。
CSDN:所以未来是向上探索上限,向下兼顾易用性,大小模型都会做吗?
段楠:是的,大模型要有对标的小模型,这是上限和应用的折中。而且大模型的成果对小模型质量提升很关键,这在视频领域也会发生。
不过,从我个人角度,接下来我更关注视频理解生成、多模态理解生成的下一代模型架构。可能会先在小模型上做架构探索,验证后再考虑放大。
CSDN:您在演讲中总结了六大挑战,这与您刚才提到的视频理解的挑战有何区别?
段楠:如果针对 AIGC,追求效率、可控性、编辑性、高质量数据就尤为重要。这是在当前基础上做更好模型,需要不断打磨数据和模型模块(VAE、Encoder、DIT、后训练 SFT/RLHF/DPO 等)。
但从 AI 整体角度看,视觉基础模型需要更强的理解能力,这需要在学习范式上做改变。我认为 Diffusion 这种学习方式不太可能学到通用理解能力,需要像 NLP 那样做自回归式的预测学习。
一旦转向这种范式,效率、对齐等问题可能会先放一边,我认为对于基础模型,一定是数据驱动的,而非伪造的数据驱动,不能是合成数据。因此我们需要更关注基础模型的数据选择(自然积累海量数据)、学习范式(借鉴语言模型,但需适配视觉)。视觉表征、生成方式(不一定是 predict token)、如何评判视觉理解能力等都是巨大挑战。视觉领域可能正处在 NLP 中 BERT 之后、GPT-3 之前的阶段,之后还要经历类似 GPT-3 到 ChatGPT 的过程。
CSDN:如果不能用合成数据来训练基础模型,这在实践中会遇到很大问题吧?您如何应对?
段楠:确实问题很大。可以借鉴 NLP 到多模态的路径:先在 NLP 上构建大语言模型,再接入视觉信息,通过少量图文对齐数据将单模态模型调优为多模态。
虽然我们缺乏大量自然的图文对齐数据,但纯文本、纯图像、纯视频数据非常多。我认为可以在某个单模态(如视觉)下先构建出像语言模型那样的基础模型,增强其自身能力后,再去做跨模态调优,届时所需对齐数据量会少很多。这是一个与端到端原生多模态不同的、可互补的路径。
CSDN:如果类比 NLP 从 BERT 到 GPT 的发展,您认为视频生成目前处于哪个节点?预计何时能达到类似 ChatGPT 的时刻?
段楠:差远了。我感觉未来一到两年,视觉领域的基础模型会出现。第一,针对视频内容的类似模型会出来;第二,与多模态结合后,无论是对现有理解任务,还是对当前热门的具身智能、Agent、机器人等,都将提供关键的视觉理解能力。这一步如果走好,对下一阶段的应用和研究都是重要基石。
CSDN:所以您认为视频生成基础模型的发展,未来会与具身智能等方向结合吗?
段楠:从 AGI 的角度看,就是要创造一个在某些维度远超人类,但大体具备人类功能的“智能体”。人类接收信息是时序连续的,类似视频。所以,视觉理解的发展,主要是为未来的智能体(具身智能、机器人等)提供更强大的时序视觉理解能力。
从 AIGC 角度看,未来人人可能都可以把自己拍进电影,与想合作的人一起创作。
目前 AIGC 有几个趋势:
  • 视频生成长度变长,增强叙事性;
  • 编辑能力不断提升,增强可控性;
  • 基于参考的图像/视频生成发展迅速,未来人人都可以当主角。
CSDN:您分享的六大挑战,是按某种顺序(如棘手程度)排列的吗?
段楠:是按照从务实到中长期的角度排列的。务实的是数据层面;进一步是应用层面,考虑效率、指令遵循、多轮编辑交互;再往前,在我看来就不仅是AIGC,而是 AI 本身的发展,比如世界模型。
CSDN:所以世界模型关系到大家希望实现的 AIGC 的最终(或关键)节点。针对这六大挑战,您团队在技术路线上有相应的优化或完善计划吗?
段楠:有计划。一方面,在基础模块(数据标注、视频表示、模型结构)上积累更扎实的经验,不断迭代优化,像产品一样持续改进。另一方面,会投入少量资源进行未来探索。不能只做追随者,要尝试做一些有创新的事情,尽管概率很低。
CSDN:您在最后总结 Future 时提到模型范式、学习范式和模型能力的变化,这是否关系到您希望实现的真正创新?能否分享一下您的基本想法?
段楠:
  • 模型结构范式变化:从纯 Diffusion 模型向 Autoregressive 与 Diffusion 融合的方向发展。
  • 学习范式变化:从文本到视频的映射学习,转变为像语言模型那样对因果关系进行预测的学习。
  • 能力变化:AIGC 角度是生成能力,但其泛化性不如语言模型。基础模型最强的能力应是 few-shot learning,即在少量新任务样本下快速解决该类问题。类比视觉,未来可能给模型看几个特效(如物体捏爆)的例子,它就能直接输出类似效果,无需额外训练。
CSDN:您设想的这些变化听起来非常长期。
段楠:很多事情发展很快。2022 年 11 月前我还觉得 NLP 可以做一辈子,后来发现形势变化迅速。所以这些听起来长期的事情,或许其简化版或中间阶段会很快出现。
CSDN:这个“很快”具体是多久?您预估一到两年内会发生哪些重要的事情?
段楠:我个人感觉是一到两年。重要的事情比如:视觉领域是否会出现类似 GPT-3 的时刻?多模态模型能否将文本、图像和视频真正统一起来?如果这些能达成,将非常了不起,大家真的要思考后续该做什么了。
CSDN:您“消失”一年后重新露面,可否分享一下这一年中学到的、让您觉得最深刻的前三条经验?其中有哪些是认知上的变化,又有哪些是不变的?
段楠:
  • 技能栈拓展:过去我可能过多关注算法和所谓创新本身,忽视了数据和系统在大型项目中的重要性。这一年在这方面积累了经验。
  • 可用性:项目不仅要追求学术上限,还要考虑可用性,尤其是在不同环境下。一个有影响力的研究,在这个时代一定要能被人用起来。
  • 认知变化:更深刻理解了技术创新与广泛应用之间的关系。
  • 不变的:对技术本身的追求始终没有变过。大的方向上,我相信一些事情终究会发生,向这个大方向努力的目标没有变。
CSDN:在大模型这个多变的时代,技术突破难以预料。在这种不确定性中,您认为可以确定的是什么?
段楠:作为在研究领域多年的人,我相信一些宏观趋势是确定的。虽然平台和阶段不同会做调整,但向着大方向前进的目标是不会变的。
CSDN:在多模态领域,您觉得最终一定会实现的是什么?
段楠:语言和视觉的理解与生成的统一。未来大家会更便捷地使用设备去感知文字以外的内容(图片、环境),也能更好地创作满足社交、工作或爱好的内容。人人都是自媒体的机会更多了。我之前参加一个年会,看到内容创作者能搭建出非常复杂的pipeline,这让我相信有创意的人会把技术整合并用起来,非常厉害。
CSDN:年初展望时,大家觉得文本领域已相对成熟,多模态结果尚不明显。您认为这个结果会在 2025 年还是 2026 年出现?能否更具体一点?
段楠:我感觉接下来一年,至少像 GPT-4o 这样图像和文字的理解生成会做得非常好,能解决很多实际问题,比如小商家制作图文并茂的广告。
再往下走:
  • 应用层面:AI新型应用目前还不确定,未来可能会有发展。
  • 模型层面:多模态模型会向物理世界发展,更好地感知视觉,比如动作理解等。这方面成果会越来越多、越来越扎实。
CSDN:直播间有人问段老师在用哪些 AI 助手?您的 AI 使用习惯是怎样的?
段楠:都会用一些。包括阶跃自己的“阶跃 AI”助手,DeepSeek 等。因为曾在微软工作,也保留了使用 ChatGPT 的一些习惯。
CSDN:您过去一年的工作状态是怎样的?加班程度如何?
段楠:我认为被动的时候叫加班,主动的时候就不叫加班。我们团队的人都是自驱型的,不需要刻意要求。
CSDN:说明大家是自发投入,一边觉得踩了很多坑,一边又觉得这是自己想做的事情。
段楠:是的,是这样的。
CSDN:非常感谢段老师的分享,希望您以后能多多出来和大家交流。
段楠:好,谢谢大家。
2025 全球机器学习技术大会上海站已圆满结束,本次大会围绕 AI 最前沿的发展趋势与落地实践,聚焦大语言模型技术演进、AI 智能体、具身智能、DeepSeek 技术解析与行业实践等 12 大专题,邀请了超 60 位来自全球顶尖科技企业与学术机构的重磅嘉宾齐聚一堂,全面呈现 AI 领域的技术风向与应用前沿。 
扫码下方二维码免费领取「2025 全球机器学习技术大会上海站」大会 PPT。

(文:AI科技大本营)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往