MiniMax Hailuo 02实测：这下可以把牛顿的棺材板焊死了

作者｜丸丸柚贝
邮箱｜wangxianxian@pingwest.com

1080P特效炸裂，全球第二的视频模型有多强？

MiniMax憋了半年的Hailuo 02视频大模型，昨天半夜终于上线了！

官方demo一放，有网友喊着“钮祜禄·螺，起驾回宫”。

视频效果说实话确实一点都不AI！但真实水平还是得测过才能评价，今天我们也拿到了内测名额，实测一下Hailuo 02究竟是不是回宫的那位！

先看模型实力：全新架构、榜单前排

Hailuo 02此次升级采用了NCR（Noise-aware Compute Redistribution）新架构，直接将训练和推理效率提升了 2.5 倍，模型的总参数量相较于Hailuo 01扩大了3倍，数据量扩大了4倍，让模型能够理解更加复杂的指令和物理场景。

在全新架构的加持下Hailuo 02在 Artificial Analysis Video Arena 的 Image-to-Video 榜单位列全球第二，仅次于字节的 Seedance 1.0，已把 Google Veo 3、可灵 2.0 甩在身后。

官方给出的Hailuo 02模型的各种成绩确实很亮眼，demo演示的效果也很惊艳，接下来咱们用几个案例深度测评一下，看看Hailuo 02这全球第二的名头虚不虚。

测试1：复杂物理场景理解

提示词：“一位年轻女子的半身像，她有着淡淡的棕色眼睛和深色的眉毛，站在墙边。一部电影正投射在她身上。”

提示词：“雨夜，四十多岁的男人面容严肃，站在高楼楼顶，风衣下摆被风吹动，镜头拉近到他半张脸，雨水顺着下巴滴落。”

Hailuo 02对于光影、雨、风等物理场景的理解可以做到1:1还原现实世界，无论是少女脸上的投影还是在男人随风摆动的衣服，脸上滑落的雨水，生成的效果都非常真实。

测试2：复杂指令遵循

提示词：“远处广场上人群涌动；镜头迅速下降至钟楼上的狙击点，瞄准镜的十字线特写锁定在大楼窗口的男子身上。”

提示词：“新闻直播画面，电视屏幕特写——通缉令照片与电视前男子的真实面容重叠；他脱下帽子，冷笑一声，镜头拉远，他消失在贫民窟的人群中，全景镜头。”

Hailuo 02能够理解复杂变化的画面场景，可以从广场，钟楼到狙击点特写一镜到底，也可以从电视画面丝滑转场到新的场景，具有电影戏剧化的同时，也非常完整的理解了提示词中的所有信息。

测试3：图生视频

提示词：“唐僧行走于天宫之中，从玉皇大帝和诸神中走向镜头”

提示词：“泳池里的labubu游到岸边，换上泳衣，躺在沙滩椅上，悠闲地喝着饮料。”

Hailuo 02的图生视频可以让人物保持高度一致的同时，还能按照原画风生成后续内容，并且整体画面非常稳定。

如果测试内容看的还不够爽，那下面这个100%用Hailuo 02生成的《暗影追踪》电影预告片，值得一看！

从 Hailuo 01 到 02，MiniMax 仅用半年把分辨率拉到 1080p、把复杂动作做到“杂技级”，并在全球榜单硬生生卷进前三。而在可落地的 API、可负担的单价与社群氛围的三重加成下，Hailuo 02 已不只是“国产之光”，更像一台大众化的“AI 摄影机”。

接下来，1080p10s、4K、分层编辑、长视频一致性——相信都已写在 MiniMax 的路线图里。我们坐等下一次刷新认知的时刻。

（文：硅星GenAI）