国产视频生成再突破！从影视级短片到远洋亲情连线，AI让天涯变咫尺

给专业导演配齐创作助手，还帮远洋海员实现“视频自由”。

作者 | 陈骏达

编辑 | 漠影

起猛了，AI现在都能生成武打戏了，还是人虎搏斗的那种！

近日，一条名为《风入松》的AI短片，在年度AI盛会WAIC期间亮相，吸引了不少眼球。这部影片以现代废土风，重新演绎了经典的“武松打虎”故事。

▲AI短片《风入松》片段

画面中，主角的动作流畅有力，老虎的毛发随势起伏，甚至尘土飞扬、衣角翻动等细节也都清晰可见。这可不是靠后期反复修补得来的，而是一次性生成的结果，让人不禁感叹AI视频生成技术的飞速进展，逐渐迈入专业影视制作的实用阶段。

《风入松》由中国电影导演中心与中国电信人工智能研究院（TeleAI）联手打造，使用的正是TeleAI的VAST视频生成大模型。

TeleAI由中国电信集团CTO、首席科学家李学龙教授牵头组建，于去年7月的WAIC大会上正式揭牌。在李学龙教授的带领下，TeleAI团队打造了包括VAST在内的星辰大模型体系，是国内首个全模态、全尺寸、全国产的“三全”大模型，并推动相关技术的创新和应用。

从设定的角度来看，《风入松》这部短片本身便极具想象力，但最令人惊叹的，当属AI技术如何将天马行空的想象化为逼真画面。

作为技术支撑，TeleAI的VAST视频生成大模型去年12月发布时，便在权威视频生成评测榜单VBench中夺得榜首，并持续迭代升级。

从基础画面生成，到复杂动作，再到镜头控制与角色一致性优化，其能力边界不断扩展，已具备在专业创作场景中“顶上阵”的潜力。

01.

视频生成告别开盲盒游戏

能演会拍才是好AI

要真正理解《风入松》这部短片实现的突破，我们首先得看看，影视制作究竟需要什么样的AI工具。

分辨率高、动作流畅、细节写实，这些只是技术层面的基础能力，远远不够支撑一部真正意义上的影视作品。

要在真实的影视制作流程中发挥作用，AI更关键的是要理解导演的创作意图，跟上叙事节奏、掌握镜头语言、调动情绪氛围，真正融入视听语言的表达体系。

换言之，AI不仅要会画画，更要像电影人一样会拍、会演，能够协同完成角色塑造、场景调度与叙事推进，成为一名具备视听表达能力的“创作伙伴”。

《风入松》中，TeleAI的VAST视频生成大模型已展现出强烈的画面表现力和叙事控制力。

影片伊始，当现代“武松”骑着摩托车在沙漠飞驰，AI将每一处细节都刻画得淋漓尽致：引擎轰鸣声与风沙的呼啸形成震撼音浪，摩托车飞跃障碍时在空中划出完美的弧线，车轮驶过沙地时激起细腻的沙浪，光影真实自然。

在激烈的猛虎搏斗场景中，AI模拟的每一根虎毛都随动作摆动，肌肉线条在扑咬时展现出惊人的动态细节；主角与老虎搏斗时拳拳到肉，动作有力、毫无穿帮。这些曾需要顶级特效团队数月打磨的画面，如今通过AI实现了电影级的真实感。

TeleAI的VAST视频生成大模型已经凭借其影片质量，俘获了一批专业人士。参与《风入松》制作的团队在影视行业有丰富的从业经验，据了解，他们在使用TeleAI的VAST视频生成大模型后，给予了高度认可，这更凸显了TeleAI在视频生成领域实现的重大突破。

02.

如何打造电影级视频生成模型？

揭秘背后三项核心技术

那么，打造这样一款视频生成大模型，背后究竟需要哪些关键支撑？从《风入松》的画面中，我们可以清晰地看到其中的三项核心技术。

首先是动作迁移技术。在《风入松》这部短片中，TeleAI的VAST视频生成大模型展现出强大的画面表现力和叙事控制力。张力十足的打斗戏中，没有出现“穿模”、扭曲等常见问题。

动作迁移技术允许制作者上传一张首帧图和一段参考动作，AI便能让首帧图中人物的动作表演与参考视频完全一致。这一技术成功攻克了AI生成视频中动作节奏难以控制、人物表情表演生硬等难题，让AI生成的视频人物动作更自然、表情更生动。

业界的主流动作迁移方案都基于骨骼绑定，不过，TeleAI决定更上一层楼，将其从2D骨骼点升级为3D骨骼点绑定，使得动作更具空间感、层次感，甚至可以自然地控制动物或卡通人物。

另一大核心技术为可控三维运镜，赋予了AI对“镜头语言”的准确理解和运用能力。例如，在下方画面短短的几秒内，《风入松》呈现了多角度、快速切换的复杂运镜，远景、仰拍、特写等流畅衔接。这些原本需要专业摄影指导和团队配合的镜头切换，在这里被AI准确实现。

这并不是靠堆砌提示词“蒙”出来的。通过可控三维运镜技术，TeleAI把三维重建与视频生成深度融合，赋予模型空间结构的感知能力，再通过摄像机内参、外参等物理参数精细控制运镜效果。AI不只是懂内容，它逐渐开始懂得怎么拍，让AI真正具备导演般的视角。

会演、会拍仅仅是开始，很多业内人士评价，AI视频目前最大的问题之一是“一致性差”，同一人物在不同镜头中的形象、着装、气质常常前后不一，极易穿帮。

但《风入松》中的主角却始终保持了稳定的外貌风格，这得益于背后的人物一致性技术。TeleAI的VAST视频生成大模型采用分步生成的方式，先生成分镜、深度信息等中间数据，再在此基础上精细生成画面。

这种生成流程极大提高了人物、画面的一致性与叙事可控性，流程和电影工业中用故事板搭建画面框架，再利用计算机图形技术渲染的逻辑几乎一致，让AI没有随意发挥的空间。

上述底层能力的升级，是AI视频真正迈入影视工业体系的敲门砖。更重要的是，TeleAI在与专业导演的合作中，获得了大量来自一线实践的反馈需求：比如演员的表情、情绪、人物节奏等更加细腻的表演控制。这些开发者原本没有预料到的专业需求，正逐渐转化为技术研发的新方向。凭借这些先进技术，TeleAI为影视制作行业带来了前所未有的便利和优势。

03.

视频生成+通信解锁新场景

“脑补”画面实现远洋视频通话

在推动视频生成技术赋能影视工业的同时，TeleAI也在积极探索这项技术更广阔的应用场景。毕竟，视频生成的本质并不仅限于电影创作，而是一种对视觉信息的重构方式。

从AI的通用视角来看，“智能的本质是压缩”已成为业内共识。无论是语言模型、图像模型还是视频模型，其核心任务都是从海量原始数据中提取模式与规律，并以高效、紧凑的方式编码进模型参数中，模型学会用有限的参数表示无限的可能。

但真正的智能不仅在于压缩，更在于“还原”。也就是说，一个具备高水平智能的系统，必须能够在接收有限信息的情况下，准确重建原始内容，甚至完成合理补全与未来预测。

中国电信人工智能研究院（TeleAI）将VAST视频生成大模型与其正在布局和研究的一项重要技术“智传网（AI Flow）”深度结合，提出了一种新型通信技术——生成式智能传输，也就是用“计算”换“带宽”。

智传网（AI Flow）是人工智能（智）、通信（传）、网络（网）三项关键技术的融合，通过网络分层架构，基于连接与交互，实现智能的传递和涌现。

在李学龙教授的带领下，TeleAI打造了包括智传网（AI Flow）技术体系（包括生成式智能通信技术等）在内的 “一治+三智”战略科研布局，其他方向还包括AI治理、智能光电(包括具身智能)、智能体。

智传网（AI Flow）的突破，有望解决通信业务中一个长期存在的难题——如何在极其有限的带宽条件下，高效传输高质量的视频和多媒体内容。

这是困扰通信行业多年的技术瓶颈——传统的视频通信技术依赖高带宽和高稳定性的网络环境，一旦网络不给力，立刻就卡成PPT、音画不同步。

像你我这样的普通用户，也经常会在生活中遇到类似问题。例如，在演唱会、会展等人员极为密集的场所，网络拥堵常常导致视频通话无法连接、直播卡顿，甚至连基本的视频上传和下载都变得困难。

更不用说在高铁、地下、飞机或远洋、偏远山区等极端条件下，视频通信几乎成为奢望。这些问题背后，正是现有通信技术在带宽、稳定性和数据传输效率上的瓶颈。

在本届WAIC大会上，TeleAI展示了基于智传网（AI Flow）的生成式智能传输技术的典型案例——远洋通信，破解了这一瓶颈。

船舶与陆地的通信，长期以来是全球航海技术发展中的巨大挑战。由于船上的卫星网很慢，信号很差，船员只能通过微信打字给家里报平安，无法进行视频电话或刷短视频、上视频网站。

生成式智能传输技术，让远洋视频通话不再是奢望，而是变得简单且高效。这项技术的应用，不仅连通了海洋与陆地，也让船员们的业余时光告别了单调，拥有如同岸上般丰富的色彩。

传统视频压缩传输方式是把整段视频原样搬运，而生成式智能传输技术则采用了更聪明的办法：通过TeleAI的多模态大模型，提取音视频最关键的特征信息，压缩编码后，将这些信息发送给接收端。

而在接收端，TeleAI部署在本地的多模态生成大模型能根据上述信息，自主“脑补”出完整画面，就像用草图还原一副画作一样。

这种压缩传输方式相较传统方案（如H.264+5G LDPC）展现出明显优势。在卫星场景下带宽资源稀缺时，这个方案将带宽需求压缩了整整1-2个数量级，视频数据体积最多可降至原始的1%，在背景变化较小的场景中甚至可达千分之一。

在船载服务器上的多模态生成大模型本地完成音视频的智能还原后，画质、音质可以保持“主观无损”的水平。这就让远洋海员们即便在极低带宽条件下，依然能够实现清晰、流畅的视频通话体验。

从部署角度来看，这项技术对硬件要求也非常友好——船只仅需搭载一台配有4张消费级显卡的本地服务器，便可为船员提供稳定的Wi-Fi视频通话服务。这种轻量化部署，为未来的规模化落地提供了现实基础。

生成式智能传输不仅适用于远洋通信，还是一整套可适配不同通信环境的解决方案。系统可根据不同场景下的带宽、算力等资源条件，智能选择不同大小的视频解码模型。

例如，在多数通话场景中，仅使用480P分辨率和小模型即可实现流畅且清晰的通信体验，从而实现算力与带宽的最优协同。

可以说，这项技术展现的并非某一项技术的单点突破，而是一种系统性的融合式创新。如果没有VAST视频生成技术的日益成熟，视频信号根本压缩不到这个程度；如果没有智传网（AI Flow）基础构建，再精美的画面也送不到用户眼前。

未来，通信不再是单纯的信号搬运，而是理解与重建的过程，编码的不再是比特，而是意义本身。生成式智能传输技术在远洋通信的应用场景中已获得验证，在不久的未来，这项技术将进一步推广，实现在飞机的机舱内拨打高清视频会议，不因信号影响工作；野外露营时，也能收看精彩的球赛，不为生活留下遗憾。

这正是一场AI与通信的“双向奔赴”，也为构建高质量、低成本的未来多媒体通信基础设施，提供了坚实的技术底座与实践范本。

（

（文：智东西）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

发表评论 取消回复

发表评论取消回复