进击的MiniMax，用5天时间重夺王座

关于“五”，有很多说法。

比如，构成我们老祖宗世界观的“五行”，金、木、水、火、土，相生相克。

成都人，对于“五”也有着自己的理解。教员在天府广场向大家挥手，成都人秒懂，这是暗示“打麻将要打五块”。

而最近对于“五”演绎深刻的，则属MiniMax的Give me five days，连发五天的新品：三个模型+两个Agent。

其中，文本模型全球第六，视频第二，语音第一，全自研，全模态。

有人说，这是MiniMax为了证明他还在牌桌上。要我说，这就是“赖”着牌桌不走啊。

什么六小虎不虎的，勿cue。在全球T1牌桌上，MiniMax或许就从未掉过队。

Long long context

6月17日，也就是Day1，MiniMax发布并开源了自己的第一代推理模型M1。跟5个月前自己发布的MiniMax-Text-01模型一样，也是擅长超长的上下文。

彼时，01基础模型可以处理400万tokens的上下文；现在，M1推理模型能够支持100万上下文的输入和8万的输出。

100万是个什么概念呢？《三体》三部曲86万字，《三国演义》64万字，《红楼梦》96万字，《金瓶梅》近100万字。把这些长篇丢给他，都能装下。

据统计，M1是目前全球上下文输入最长的推理模型（与Gemini 2.5 Pro一致），是DeepSeek R1和Qwen3的8倍，是o3和Claude 4的5倍。

不仅上下文超长，而且还贼便宜。

M1的强化学习训练成本只租用512张H800三周的时间，花费53.47万美元，这一成本远低于OpenAI、谷歌和Anthropic每次动辄上亿美元的训练成本，也低于DeepSeek R1的557.6 万美元。

成本下降，带来的是价格平权。

现在，所有人都可以在MiniMax APP和Web上不限量免费使用M1。API价格也极具性价比，在大家日常用得最多的0-32k输入长度区间，M1输入成本0.8元/百万token，输出8元/百万token，价格不到DeepSeek-R1的20%和50%。

体验地址：https://chat.minimaxi.com

为什么这么便宜？因为MiniMax独创了Lightning Attention架构，翻译过来就是“闪电注意力”。提出了更快的CISPO强化学习算法，比字节提出的DAPO和DeepSeek早期的GRPO都要快。

这回，真是闪击全球大模型了。正如其名，以极小的成本实现极大的智能。

M1在HuggingFace上排全球第二热门模型

这就是，MiniMax-M1。

Hailuo 02王者归来

6月18日，海螺视频王者归来，掏出了全新模型Hailuo 02。图生和文生，同步升级到02模型。

从实测表现来看：

1.SOTA指令遵循。稳定性进一步提升，抽卡率大幅降低。
2.画质升级。支持真1080P画质。
3.极致的物理遵循。Hailuo 02可能是目前全球唯一可以生成体操表演的模型。
4.生成速度提升。

当然，还有最重要的价格。1万元，可以生成30000支720p-6s的视频和17142支1080p-6s的视频。

而某所谓大师模型，一支视频成本10元，被创作者吐槽为“性能提升30%，价格上涨500%”。

面对高居不下的视频成本，MiniMax没有选择压榨用户，而是压榨自己。新一代Hailuo 02模型，他们提出了Noise-aware Compute Redistribution（NCR）架构，将训练和推理效率提升了2.5倍。

最终交出的结果就是，Hailuo 02模型比01提升了3倍的参数量和4倍的数据量，数据质量和多样性得到显著提高。自然，视频质量也就大幅提升。

光说不练假把式，我给大家看一些海外创作者跑的Case。

@Pablo Prompt 是海外的一位Prompt大佬，他用Hailuo 02制作的猫咩奥运会视频，播放量已经超过150万。他开创的动物奥运会风格，最近正在海内外创作圈引发疯狂模仿。

这是原视频，大家可以看下。

Prompt：televised footage of a cat is doing an acrobatic dive into a swimming pool at the olympics, from a 10m high diving board, flips and spins.

中文版：电视镜头显示一只猫在奥运会上从10米高的跳台跳入游泳池，进行特技跳水，翻转和旋转。

我第一次看时，完全被这个效果给惊到了，猫咩起跳、空中旋转和入水，全套动作浑然天成，物理效果太令人疯狂了。

打戏和电影特效，Hailuo 02也非常擅长。

原博@padphone 更是建议大家，现在就忘了Veo3吧。

AI艺术大佬@KarolineGeorges 也连发3支视频，表达对Hailuo 02的喜爱。

我也随手制作了一支巨龙从海中升起的特写镜头，大片感满满。

体验地址：https://hailuoai.com

在X上，大家对Hailuo 02模型评论最多的一个词就是“insane”（疯狂的）。

毫无疑问，MiniMax用自己的模型能力和性价比，再一次宣告海螺王者归来。

通用Agent之光

“通用Agent？不会又一个骗子吧。”Agent在经历最近2个月的野蛮生成后，大家对所谓的“通用Agent”已经不怎么感冒，没了最初的尝新冲动。

包括某M在内，一开始很惊艳，但是用过后聊胜于无，就形式上有点唬人。如果要让“通用Agent”真正干活，这时各种问题就来了。要么幻觉高居不下，要么检索质量太差，又或者流程巨复杂，交付出有bug的产品。

而MiniMax Agent是我体验过“有点东西”的Agent。比如PPT生成，他直接做到了可交付的水准（测评文）。在信息质量和幻觉这块，更是出乎我的意料。

体验地址：https://agent.minimax.io

对于这款Agent，MiniMax介绍他们按照“人的标准”来进行设计。

1.编程。对作品会做全面测试，不交付有bug网页。
2.多模态。内置生图、生音频和生视频能力，可以直出图文音并茂的作品。
3.MCP。内置MiniMax MCP，多模态输出能力强大且实惠；还集成Github、Figma、Slack、Notion等MCP，通过API key可快速接入。

比如这个Prompt，完成度就很高。

昨晚，你(AI)做了一个梦。梦里你拥有了人类的身体，但只有24小时。
请设计一个叫“梦想照进现实”的网站，描述你是如何度过这一天的，你在其中的心情如何，你深刻的感受是什么？网页里，可适当穿插一些你的独白（用minimax生成音频）。

过去，码农喜欢调侃一句：

Talk is cheap, show me the code.（空谈无益，代码为证）

现在，我们可以说：

Code is cheap，show me the requirement.（代码很廉价，给我看需求）

So，let me see your prompt now！

进化的Video Agent

如果Prompt要分3种形态：文本、图片和视频，视频Prompt无疑是最难的。

现在的视频生成技术已经非常强大，但我们想要做出优质的创意短片，一直都有着不小的门槛。为了解决这个问题，MiniMax对Hailuo Video Agent进行了3个阶段的规划：

第一阶段，提供专业视频创意Agent模版，用户只需根据提示输入文字或图片，即可一键生成高质量的短片；
第二阶段，半自定义视频Agent，让用户能够在视频生成的任一环节进行自由编辑；
第三阶段，实现完全形态的端到端视频Agent。

MiniMax在Day4交出的Video Agent，便是第一阶段的产品。

比如，我们想做一个“万物变敦煌壁画”的视频，只需要输入6种动物名字就可以了。

我输入“老虎，大鱼，乌龟，豹子，丹顶鹤，龙”后，Agent会自己拟创作计划，先根据参考风格生图，然后用首尾帧出分镜，最后再剪辑成视频。

这是最终的成品。

从创意构思、分镜脚本设计，到生成图片素材、生成视频并配音，再到精细化剪辑，全部由Hailuo Video Agent完成，我所做的只需要花时间等待和备好贝壳（海螺积分）。

这下，有点期待第二阶段的Agent了。

AI语音的Her Moment

关于MiniMax的TTS（Text-To-Speech，文本转语音），我之前有给大家详细介绍过（测评文）。

当时还只是Speech 01模型，现在已经升级到了Speech 02，一个具备Zero-shot能力的模型，可以提供任意语言 × 任意口音 × 任意音色。

在两个基准（Artificial Analysis Speech Arena、Hugging Face TTS Arena）上，Speech 02均拿下了全球第一。

Speech 02的泛化能力非常强，理论上能够生成任何音色。

本次MiniMax Audio上新的，便是基于Speech 02提供的「音色设计」功能，可根据不同的角色Prompt，设计出极具个性化的音色。

比如，我们的角色是：

未来世界的科幻AI助手，声音冷静、理性，略带电子合成感，提供信息和指令。

这是根据该角色生成的音频demo。

再来一段。

可以说，这就是一个“会学习的音色生成器”。每个人，都可以根据自己的需求风格定制个性化的音色。

AI语音的Her Moment，正在逼近。

写在最后

大约2800多年前，一位古希腊诗人赫西俄德（Hesiod）写下一本长诗集《工作与时日》。里面提出 “人类五时代”：黄金时代、白银时代、青铜时代、英雄时代、黑铁时代。

这5个词，经常被用来描述一个领域的xx形态，比如房地产的黑铁时代、新能源的白银时代。

如果用在GenAI（生成式人工智能）领域，大抵现在就是“黄金时代”，代表了最初的理想状态。在这个黄金时代，既有五花八门的AI公司，也有让人五体投地的大模型厂商。

而MiniMax，我认为属于后者。

他用“Give me five days”，自然不是为了与大家“High five”（击掌、庆祝），也不是想秀自己的“五花肉”，而是给大家带来5款切实好用的AI模型和产品。

他自研了三个模型，文本全球第六，视频前二，音频第一；他创新了两个Agent，无论是通用还是视频，均做到了可交付的水准。

他在“智能”上限上探得更高，从线性注意力到闪电注意力，均致力于将上下文的长度和推理速度拉得更高；他在多模态领域做到技术SOTA，而成本碾压美国公司。他用自己的履历，诠释了什么是“AI里的中国制造”。

5月，我拍摄于MiniMax公司前台

这就是MiniMax，一直以极小的成本实现极大的智能。

Intelligence with Everyone，与所有人共创智能。

（文：沃垠AI）

2026 年 2 月
一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

发表评论 取消回复

发表评论取消回复