国产视频生成再突破!从影视级短片到远洋亲情连线,AI让天涯变咫尺

给专业导演配齐创作助手,还帮远洋海员实现“视频自由”。
作者 |  陈骏达
编辑 |  漠影
起猛了,AI现在都能生成武打戏了,还是人虎搏斗的那种!
近日,一条名为《风入松》的AI短片,在年度AI盛会WAIC期间亮相,吸引了不少眼球。这部影片以现代废土风,重新演绎了经典的“武松打虎”故事。

▲AI短片《风入松》片段

画面中,主角的动作流畅有力,老虎的毛发随势起伏,甚至尘土飞扬、衣角翻动等细节也都清晰可见。这可不是靠后期反复修补得来的,而是一次性生成的结果,让人不禁感叹AI视频生成技术的飞速进展,逐渐迈入专业影视制作的实用阶段。
《风入松》由中国电影导演中心与中国电信人工智能研究院(TeleAI)联手打造,使用的正是TeleAI的VAST视频生成大模型。
TeleAI由中国电信集团CTO、首席科学家李学龙教授牵头组建,于去年7月的WAIC大会上正式揭牌。在李学龙教授的带领下,TeleAI团队打造了包括VAST在内的星辰大模型体系,是国内首个全模态、全尺寸、全国产的“三全”大模型,并推动相关技术的创新和应用。
从设定的角度来看,《风入松》这部短片本身便极具想象力,但最令人惊叹的,当属AI技术如何将天马行空的想象化为逼真画面。
作为技术支撑,TeleAI的VAST视频生成大模型去年12月发布时,便在权威视频生成评测榜单VBench中夺得榜首,并持续迭代升级。
从基础画面生成,到复杂动作,再到镜头控制与角色一致性优化,其能力边界不断扩展,已具备在专业创作场景中“顶上阵”的潜力。

01.
视频生成告别开盲盒游戏
能演会拍才是好AI


要真正理解《风入松》这部短片实现的突破,我们首先得看看,影视制作究竟需要什么样的AI工具。
分辨率高、动作流畅、细节写实,这些只是技术层面的基础能力,远远不够支撑一部真正意义上的影视作品。
要在真实的影视制作流程中发挥作用,AI更关键的是要理解导演的创作意图,跟上叙事节奏、掌握镜头语言、调动情绪氛围,真正融入视听语言的表达体系。
换言之,AI不仅要会画画,更要像电影人一样会拍、会演,能够协同完成角色塑造、场景调度与叙事推进,成为一名具备视听表达能力的“创作伙伴”。
《风入松》中,TeleAI的VAST视频生成大模型已展现出强烈的画面表现力和叙事控制力。
影片伊始,当现代“武松”骑着摩托车在沙漠飞驰,AI将每一处细节都刻画得淋漓尽致:引擎轰鸣声与风沙的呼啸形成震撼音浪,摩托车飞跃障碍时在空中划出完美的弧线,车轮驶过沙地时激起细腻的沙浪,光影真实自然。
在激烈的猛虎搏斗场景中,AI模拟的每一根虎毛都随动作摆动,肌肉线条在扑咬时展现出惊人的动态细节;主角与老虎搏斗时拳拳到肉,动作有力、毫无穿帮。这些曾需要顶级特效团队数月打磨的画面,如今通过AI实现了电影级的真实感。
TeleAI的VAST视频生成大模型已经凭借其影片质量,俘获了一批专业人士。参与《风入松》制作的团队在影视行业有丰富的从业经验,据了解,他们在使用TeleAI的VAST视频生成大模型后,给予了高度认可,这更凸显了TeleAI在视频生成领域实现的重大突破。

02.
如何打造电影级视频生成模型?
揭秘背后三项核心技术


那么,打造这样一款视频生成大模型,背后究竟需要哪些关键支撑?从《风入松》的画面中,我们可以清晰地看到其中的三项核心技术
首先是动作迁移技术。在《风入松》这部短片中,TeleAI的VAST视频生成大模型展现出强大的画面表现力和叙事控制力。张力十足的打斗戏中,没有出现“穿模”、扭曲等常见问题。
动作迁移技术允许制作者上传一张首帧图和一段参考动作,AI便能让首帧图中人物的动作表演与参考视频完全一致。这一技术成功攻克了AI生成视频中动作节奏难以控制、人物表情表演生硬等难题,让AI生成的视频人物动作更自然、表情更生动。
业界的主流动作迁移方案都基于骨骼绑定,不过,TeleAI决定更上一层楼,将其从2D骨骼点升级为3D骨骼点绑定,使得动作更具空间感、层次感,甚至可以自然地控制动物或卡通人物。
另一大核心技术为可控三维运镜,赋予了AI对“镜头语言”的准确理解和运用能力。例如,在下方画面短短的几秒内,《风入松》呈现了多角度、快速切换的复杂运镜,远景、仰拍、特写等流畅衔接。这些原本需要专业摄影指导和团队配合的镜头切换,在这里被AI准确实现。
这并不是靠堆砌提示词“蒙”出来的。通过可控三维运镜技术,TeleAI把三维重建与视频生成深度融合,赋予模型空间结构的感知能力,再通过摄像机内参、外参等物理参数精细控制运镜效果。AI不只是懂内容,它逐渐开始懂得怎么拍,让AI真正具备导演般的视角。
会演、会拍仅仅是开始,很多业内人士评价,AI视频目前最大的问题之一是“一致性差”,同一人物在不同镜头中的形象、着装、气质常常前后不一,极易穿帮。
但《风入松》中的主角却始终保持了稳定的外貌风格,这得益于背后的人物一致性技术。TeleAI的VAST视频生成大模型采用分步生成的方式,先生成分镜、深度信息等中间数据,再在此基础上精细生成画面。
这种生成流程极大提高了人物、画面的一致性与叙事可控性,流程和电影工业中用故事板搭建画面框架,再利用计算机图形技术渲染的逻辑几乎一致,让AI没有随意发挥的空间。
上述底层能力的升级,是AI视频真正迈入影视工业体系的敲门砖。更重要的是,TeleAI在与专业导演的合作中,获得了大量来自一线实践的反馈需求:比如演员的表情、情绪、人物节奏等更加细腻的表演控制。这些开发者原本没有预料到的专业需求,正逐渐转化为技术研发的新方向。凭借这些先进技术,TeleAI为影视制作行业带来了前所未有的便利和优势。

03.
视频生成+通信解锁新场景
“脑补”画面实现远洋视频通话


在推动视频生成技术赋能影视工业的同时,TeleAI也在积极探索这项技术更广阔的应用场景。毕竟,视频生成的本质并不仅限于电影创作,而是一种对视觉信息的重构方式。
从AI的通用视角来看,“智能的本质是压缩”已成为业内共识。无论是语言模型、图像模型还是视频模型,其核心任务都是从海量原始数据中提取模式与规律,并以高效、紧凑的方式编码进模型参数中,模型学会用有限的参数表示无限的可能。
但真正的智能不仅在于压缩,更在于“还原”。也就是说,一个具备高水平智能的系统,必须能够在接收有限信息的情况下,准确重建原始内容,甚至完成合理补全与未来预测。
中国电信人工智能研究院(TeleAI)将VAST视频生成大模型与其正在布局和研究的一项重要技术“智传网(AI Flow)”深度结合,提出了一种新型通信技术——生成式智能传输,也就是用“计算”换“带宽”。
智传网(AI Flow)是人工智能(智)、通信(传)、网络(网)三项关键技术的融合,通过网络分层架构,基于连接与交互,实现智能的传递和涌现
在李学龙教授的带领下,TeleAI打造了包括智传网(AI Flow)技术体系(包括生成式智能通信技术等)在内的 “一治+三智”战略科研布局,其他方向还包括AI治理、智能光电(包括具身智能)、智能体。
智传网(AI Flow)的突破,有望解决通信业务中一个长期存在的难题——如何在极其有限的带宽条件下,高效传输高质量的视频和多媒体内容。
这是困扰通信行业多年的技术瓶颈——传统的视频通信技术依赖高带宽和高稳定性的网络环境,一旦网络不给力,立刻就卡成PPT、音画不同步。
像你我这样的普通用户,也经常会在生活中遇到类似问题。例如,在演唱会、会展等人员极为密集的场所,网络拥堵常常导致视频通话无法连接、直播卡顿,甚至连基本的视频上传和下载都变得困难。
更不用说在高铁、地下、飞机或远洋、偏远山区等极端条件下,视频通信几乎成为奢望。这些问题背后,正是现有通信技术在带宽、稳定性和数据传输效率上的瓶颈。
在本届WAIC大会上,TeleAI展示了基于智传网(AI Flow)的生成式智能传输技术的典型案例——远洋通信,破解了这一瓶颈。
船舶与陆地的通信,长期以来是全球航海技术发展中的巨大挑战。由于船上的卫星网很慢,信号很差,船员只能通过微信打字给家里报平安,无法进行视频电话或刷短视频、上视频网站。
生成式智能传输技术,让远洋视频通话不再是奢望,而是变得简单且高效。这项技术的应用,不仅连通了海洋与陆地,也让船员们的业余时光告别了单调,拥有如同岸上般丰富的色彩。
传统视频压缩传输方式是把整段视频原样搬运,而生成式智能传输技术则采用了更聪明的办法:通过TeleAI的多模态大模型,提取音视频最关键的特征信息,压缩编码后,将这些信息发送给接收端。
而在接收端,TeleAI部署在本地的多模态生成大模型能根据上述信息,自主“脑补”出完整画面,就像用草图还原一副画作一样。
这种压缩传输方式相较传统方案(如H.264+5G LDPC)展现出明显优势。在卫星场景下带宽资源稀缺时,这个方案将带宽需求压缩了整整1-2个数量级,视频数据体积最多可降至原始的1%,在背景变化较小的场景中甚至可达千分之一。
在船载服务器上的多模态生成大模型本地完成音视频的智能还原后,画质、音质可以保持“主观无损”的水平。这就让远洋海员们即便在极低带宽条件下,依然能够实现清晰、流畅的视频通话体验。
从部署角度来看,这项技术对硬件要求也非常友好——船只仅需搭载一台配有4张消费级显卡的本地服务器,便可为船员提供稳定的Wi-Fi视频通话服务。这种轻量化部署,为未来的规模化落地提供了现实基础。
生成式智能传输不仅适用于远洋通信,还是一整套可适配不同通信环境的解决方案。系统可根据不同场景下的带宽、算力等资源条件,智能选择不同大小的视频解码模型。
例如,在多数通话场景中,仅使用480P分辨率和小模型即可实现流畅且清晰的通信体验,从而实现算力与带宽的最优协同。
可以说,这项技术展现的并非某一项技术的单点突破,而是一种系统性的融合式创新。如果没有VAST视频生成技术的日益成熟,视频信号根本压缩不到这个程度;如果没有智传网(AI Flow)基础构建,再精美的画面也送不到用户眼前。
未来,通信不再是单纯的信号搬运,而是理解与重建的过程,编码的不再是比特,而是意义本身。生成式智能传输技术在远洋通信的应用场景中已获得验证,在不久的未来,这项技术将进一步推广,实现在飞机的机舱内拨打高清视频会议,不因信号影响工作;野外露营时,也能收看精彩的球赛,不为生活留下遗憾。
这正是一场AI与通信的“双向奔赴”,也为构建高质量、低成本的未来多媒体通信基础设施,提供了坚实的技术底座与实践范本。

(文:智东西)

发表评论