鱼羊 一水 发自 凹非寺
量子位 | 公众号 QbitAI

满场观众瞩目之下,体操运动员稳稳完成一个跳步动作,然后……突然来了段木上芭蕾???

这可不是什么网球王子排球少年真人版之类的运动电影特技——
以上画面,完全由AI生成。
没错,这一次MiniMax视频生成模型上新,还真是把“体操”这个AI视频生成的亘古难题给搞定了!
要知道,前段时间让谷歌出尽了风头的Veo 3,都还在这一挑战面前翻了车,让网友直呼:
体操就是视频生成模型的图灵测试。

新模型名叫Hailuo 02,主打一个“超清画质”、“精准响应”:
原生支持1080p,可以hold住极端复杂的物理场景。
不仅是体操,搞点城市特技也是信手拈来,并且连玻璃里的倒影都符合真实世界的客观规律。

△图源:𝕏@WuxiaRocks
总而言之就是:物理表现有点太强了吧。

如此水准,使得Hailuo 02深夜发布即炸场,海内外网友抹平时差第一时间纷纷玩嗨。

不少网友直言:比Veo 3更好。

值得一提的是,Hailuo 02一发布,也直接冲上了AI视频竞技场图生视频排行榜第二名,在基准测试中超越当红炸子鸡Veo 3。

概括而言,Hailuo 02这次呈现出了以下亮点:
-
原生支持1080p(另一种为768p)高清视频输出,画面更具质感; -
支持6s、10s两种时长的视频生成(且可以通过拼接进行延长); -
文生视频方面,模型更懂物理场景,也更能遵循复杂指令了; -
图生视频方面,画面的衔接能力进一步提升,可以用来支持短视频玩法。
以及国产模型嘛,主打一个对国内用户体验友好。海螺新用户,现在就能免费试玩。
具体怎么玩,我们照例附上提示词,带来一手最真实实测,以供参考~
一手实测:物理超神,无惧复杂指令
海螺AI已第一时间在网页及APP端上架了Hailuo 02模型。
下面我们直接进入官网,分别体验其文生/图生视频能力,新用户开局即赠送500免费积分(生成一段10秒768p视频需消耗50积分)。

文生视频:懂物理,也懂复杂指令了
从文生视频开始,我们优先深入考查Hailuo 02是否真能hold住各种物理场景。
不说别的,堪称耍杂技基本功的“花式抛球”这不得先安排上?
实测1:画面中的小丑以敏捷优雅的动作抛接几个小球。

仔细看三个小球的运动轨迹,这一次全都正确,没有再犯“移花接木”这种常见错误。
而且小丑演员的动作姿态相当自然,过程中始终面带微笑,并多次眨眼。
所以这小试牛刀的一局,确实能发现Hailuo 02身上“懂物理”的天分。
接下来我们有意升级杂技难度,来让小猴表演骑独轮车。
相比第一关,这里不仅考查动物这一特殊主体对平衡能力的掌控,还增加了运镜控制,整体更考验视频的一致性和连贯性。
实测2:一只猴子在马戏团帐篷里骑独轮车。摄像机拉远以捕捉整个场景,然后跟随猴子,看它熟练地在马戏团地板上穿梭。

而小猴也成功挑战了骑独轮车直行、转弯,甚至转弯前还知道手动控制车轮减速(doge)。

此外,当镜头随着小猴逐渐拉远,AI也自动补全了周围布景,整个延伸画面较为符合常识。
看来这也难不倒它了,所以我们直接进入物理局的终极挑战——镜子。
众所周知,AI生成的视频要符合镜子成像原理,难度很大。因此,让主体在镜子前运动已成为检验视频是否为AI生成的一个重要方法。
实测3:一位女士在镜子前化妆。

简简单单一句话,Hailuo 02就生成了几乎能以假乱真影视片段的视频。
更重要的是,这位女士对镜涂口红的动作十分自然(从中间到嘴唇边缘),并且不管是大镜子还是桌角上的小镜子,成像及运动都几乎看不出破绽。
小结一下,在以上关于Hailuo 02是否懂物理的测试中,我们确实能明显看到它的进步,尤其是相比早期那些“手脚乱飞”的恐怖视频,这款模型违背常识的概率已经大大减少。

除了物理测试,接下来我们重点考考Hailuo 02遵循复杂指令的能力,这也是官方提到的技术亮点之一。
话不多说,直接上一段辣辣辣么长的提示词:
实测4:一位身穿黄色连衣裙的女子坐在郊区住宅的沙发上。桌上放着一本红色的书,旁边是一个黄色的盘子,上面放着一块烤牛排和芦笋。沙发上绘有花卉图案。墙壁上贴着蓝色壁纸。沙发背后的窗户映出白雪皑皑的后院。一只金毛猎犬在客厅里走来走去。一位男子走进画框,坐在沙发上女子的旁边。男子身穿燕尾服。窗外,孩子们在雪地里玩耍。墙上挂着一幅帆船的画。

咳咳,此刻诚邀大家一起进入找茬模式。
一眼看去,整个视频说是截取自某部美剧估计也有人相信,因为不管是两位主角还是客串金毛都进入了走戏状态。
细节方面也几乎全都还原了,例如“桌上的红书”、“旁边的黄盘子”、“盘子里的烤牛排和芦笋”,以及各种装饰和窗外“雪地上玩耍的孩子”。
而且值得注意的是,这里我们和网友用了一样的提示词,结果效果惊人一致(除了长相和窗外的小孩),由此说明Hailuo 02并非“抽卡”,其生成效果相对稳定。

△图源:𝕏@CHRIS FIRST
当然提示词的长度是一方面,另一方面还要看AI能否理解一些更晦涩、跨度更大的指令。
就好比下面这个需要在短短6s内横跨春、夏、秋、冬的例子。
实测5:空镜头,一个人骑马在大草原上奔跑,依次跑过春夏秋冬四个季节,体现时间变化,关键是接近自然真实状态,纪录片质感。

有一说一,整个视频纪录片质感满满,一切都在随着骑马人的前行不断变换。
并且显而易见,这种变换是在连续的几个瞬间完成的,属实用上了纪录片的时空拼接大法。
与此同时,我们也考察了Hailuo 02“凭空”生成搞笑短视频的能力。
就是说,在仅凭文字的情况下(不给参考图),让它试试近期比较流行的玩法——灵魂画手,看它能不能准确get我们的意图。
实测6:两个人模仿AI打架,场面很搞笑,中间将某一场景转换为黑白草图效果以展现富含夸张意味的“灵魂画手”玩法。

很好,非常符合那种刻意追求的AI味儿,而且草图也很生动形象(手动狗头)~
再次小结一下,在以上关于Hailuo 02是否懂复杂指令的测试中,面对要素多、跨度大,以及可能陌生的词(如“灵魂画手”),Hailuo 02都能做到得心应手。
图生视频:能玩短视频,也能正儿八经拍广告了
OK,挑战继续~接下来进入图生视频环节。
众所周知,现在检验图生视频模型好不好,很重要的一点就是看它一次性生成的视频能不能直接用,无需再借助第三方剪辑软件修来改去。
而Hailuo 02在这方面已经取得突破,例如当把它用于正儿八经的日常工作时(如广告营销),其生成的视频已经能直接派上用场。
这里有请最近一阵频繁火上热搜的顶流——Labubu,来打个样。(蹭蹭顶流热度bushi~
实测7:宣传片,各种虚拟人物在不同场景中宣传手中的Labubu玩偶,结尾以“Labubu”的酷炫文字效果结束。
或许是由于提到了玩偶,视频中的“宣传小能手”皆为儿童,并且几个小朋友之间的转场也很丝滑。
这里还顺带考查了模型的文字生成能力,初步来看效果还不错,没有出现常见的拼写错误。
另外,最近假期出游比较热,如何让自己称霸朋友圈也有AI来支招了。
实测8:镜头缓缓左移,女子走近雪山,在雪地上行走。

只需将自己和风景图拼接在一起,再配上一句简单提示词,就能重新营造“身临其境”的感jio了。
凭借这一类视频,是谁又从朋友圈脱颖而出了~

最后必须奉上一众网友最钟爱的玩法之一——生成好莱坞级特效大片。
还记得惊天魔盗团里的控雨名场面吗?这一次,“魔术师”变成了AI。
实测9:在熙熙攘攘的人群中,中心的一位魔术师正在表演魔术,突然将所有正在下落的雨滴全部静止在空中,创造出一幅迷人的雨滴悬停的壮观景象,悬停后又瞬间恢复正常下落。

虽然提供给AI的只有第一帧图,但它精准抓住了“让雨滴静止”以及“悬停后刹那间恢复”这两个关键时刻。
如此一来,它从整体上就给人留下了高度还原电影场景的印象。
Okk,实测部分到此告一段落。
顺便一提,Hailuo 02还解决了用户一上来不会写提示词的“老大难”,不仅有预设的提示词和运镜指导资源库,还能让AI帮你一键优化提示词(自动优化默认开启)。

即使只和前一代Hailuo 01相比,Hailuo 02的进步也非常直观(公鸡没有出现踏空的反常识现象):

△图源:𝕏@Travis Davids
若放眼全球,种种体验也表明,目前Hailuo 02已经具备视频生成领域第一梯队的实力。
价格创新低
效果之外,值得关注的是,Hailuo 02不仅在基准榜单中表现亮眼,使用成本方面也创下新低。
以下为1000美元能生成的视频秒数对比:

目前,MiniMax官方提供了3种API版本:768p-6s、768p-10s和1080p-6s。
在此背后,官方首次公开技术细节,透露了“降本”关键——Hailuo 02的核心框架:噪声感知计算重分配(Noise-aware Compute Redistriburion,NCR)。

基于这一架构,Hailuo 02的训练和推理效率均提升了2.5倍。
这使得模型能够通过增大参数量来增强表达能力,同时不增加太多的训练成本。
而更大的参数量和更高的训练效率,也意味着模型能够在更广泛的数据集中提升能力。
最终,Hailuo 02的参数量达到前代模型的3倍,训练数据提升4倍。

从技术角度出发,不断抬高效果天花板的同时,一次次重新定义性价比。毫无疑问的是,以视频生成领域为代表,国产模型正在全球舞台上,从追赶者进阶到潮流引领者。
而像MiniMax这样的玩家,“野心”还不止于此。
这周恰是MiniMaxWeek,更全面、更长远的技术布局,正在这一周的实力秀中逐渐清晰:
第一天,开源性能比肩DeepSeek-R1,算力成本仅380万的推理大模型性价比新王MiniMax-M1;
第二天,用原生1080p、物理效果next level的世界级视频模型Hailuo 02炸场AI视频生成;
第三天,推出专为复杂任务构建的MiniMax Agent;
……
实际上,模型层面,在坚持基础模型投入的同时,MiniMax已经实现了从文本、语音到视频的全模态覆盖。
就在上个月,其AI语音生成模型Speech-02也率先实现了国产玩家在该领域的突围:同时拿下Artificial Analysis Speech Arena和Hugging Face TTS Arena两项全球权威语音基准测评第一,成为榜单前十名中唯一国产玩家。

全面的技术能力,正在支撑起更丰富的产品形式。MiniMax路线的底层逻辑,简单总结起来其实就是:
Intelligence with Everyone。
技术和产品的并驾齐驱,踏出的正是一条通往智能更高上限、更低成本的路径。
而这,也正是大模型应用之年,众所瞩目的实践范本。

Week还在继续,期待仍在叠加,2025大模型还会进化成何种模样,一起继续见证吧~
官网体验地址:
hailuoai.com
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
🌟 点亮星标 🌟
(文:量子位)