
邮箱|wangxianxian@pingwest.com
1080P特效炸裂,全球第二的视频模型有多强?
MiniMax憋了半年的Hailuo 02视频大模型,昨天半夜终于上线了!
官方demo一放,有网友喊着“钮祜禄·螺,起驾回宫”。
视频效果说实话确实一点都不AI!但真实水平还是得测过才能评价,今天我们也拿到了内测名额,实测一下Hailuo 02究竟是不是回宫的那位!
先看模型实力:全新架构、榜单前排
Hailuo 02此次升级采用了NCR(Noise-aware Compute Redistribution)新架构,直接将训练和推理效率提升了 2.5 倍,模型的总参数量相较于Hailuo 01扩大了3倍,数据量扩大了4倍,让模型能够理解更加复杂的指令和物理场景。

在全新架构的加持下Hailuo 02在 Artificial Analysis Video Arena 的 Image-to-Video 榜单位列全球第二,仅次于字节的 Seedance 1.0,已把 Google Veo 3、可灵 2.0 甩在身后。

实测:AI这下可以把牛顿的棺材板焊死了
官方给出的Hailuo 02模型的各种成绩确实很亮眼,demo演示的效果也很惊艳,接下来咱们用几个案例深度测评一下,看看Hailuo 02这全球第二的名头虚不虚。
测试1:复杂物理场景理解
提示词:“一位年轻女子的半身像,她有着淡淡的棕色眼睛和深色的眉毛,站在墙边。一部电影正投射在她身上。”
提示词:“雨夜,四十多岁的男人面容严肃,站在高楼楼顶,风衣下摆被风吹动,镜头拉近到他半张脸,雨水顺着下巴滴落。”
Hailuo 02对于光影、雨、风等物理场景的理解可以做到1:1还原现实世界,无论是少女脸上的投影还是在男人随风摆动的衣服,脸上滑落的雨水,生成的效果都非常真实。
测试2:复杂指令遵循
提示词:“远处广场上人群涌动;镜头迅速下降至钟楼上的狙击点,瞄准镜的十字线特写锁定在大楼窗口的男子身上。”
提示词:“新闻直播画面,电视屏幕特写——通缉令照片与电视前男子的真实面容重叠;他脱下帽子,冷笑一声,镜头拉远,他消失在贫民窟的人群中,全景镜头。”
Hailuo 02能够理解复杂变化的画面场景,可以从广场,钟楼到狙击点特写一镜到底,也可以从电视画面丝滑转场到新的场景,具有电影戏剧化的同时,也非常完整的理解了提示词中的所有信息。
测试3:图生视频
提示词:“唐僧行走于天宫之中,从玉皇大帝和诸神中走向镜头”
提示词:“泳池里的labubu游到岸边,换上泳衣,躺在沙滩椅上,悠闲地喝着饮料。”
Hailuo 02的图生视频可以让人物保持高度一致的同时,还能按照原画风生成后续内容,并且整体画面非常稳定。
如果测试内容看的还不够爽,那下面这个100%用Hailuo 02生成的《暗影追踪》电影预告片,值得一看!
从 Hailuo 01 到 02,MiniMax 仅用半年把分辨率拉到 1080p、把复杂动作做到“杂技级”,并在全球榜单硬生生卷进前三。而在可落地的 API、可负担的单价与社群氛围的三重加成下,Hailuo 02 已不只是“国产之光”,更像一台大众化的“AI 摄影机”。
接下来,1080p10s、4K、分层编辑、长视频一致性——相信都已写在 MiniMax 的路线图里。我们坐等下一次刷新认知的时刻。

(文:硅星GenAI)