进击的MiniMax,用5天时间重夺王座


关于“”,有很多说法。

比如,构成我们老祖宗世界观的“五行”,金、木、水、火、土,相生相克。

成都人,对于“五”也有着自己的理解。教员在天府广场向大家挥手,成都人秒懂,这是暗示“打麻将要打五块”。

而最近对于“五”演绎深刻的,则属MiniMax的Give me five days,连发五天的新品:三个模型+两个Agent。

其中,文本模型全球第六,视频第二,语音第一,全自研,全模态。

有人说,这是MiniMax为了证明他还在牌桌上。要我说,这就是“赖”着牌桌不走啊

什么六小虎不虎的,勿cue。在全球T1牌桌上,MiniMax或许就从未掉过队


Long long context


6月17日,也就是Day1,MiniMax发布并开源了自己的第一代推理模型M1。跟5个月前自己发布的MiniMax-Text-01模型一样,也是擅长超长的上下文。

彼时,01基础模型可以处理400万tokens的上下文;现在,M1推理模型能够支持100万上下文的输入8万的输出

100万是个什么概念呢?《三体》三部曲86万字,《三国演义》64万字,《红楼梦》96万字,《金瓶梅》近100万字。把这些长篇丢给他,都能装下。

据统计,M1是目前全球上下文输入最长的推理模型(与Gemini 2.5 Pro一致),是DeepSeek R1和Qwen3的8倍,是o3和Claude 4的5倍。

不仅上下文超长,而且还贼便宜。

M1的强化学习训练成本只租用512张H800三周的时间,花费53.47万美元,这一成本远低于OpenAI、谷歌和Anthropic每次动辄上亿美元的训练成本,也低于DeepSeek R1的557.6 万美元。

成本下降,带来的是价格平权。

现在,所有人都可以在MiniMax APP和Web上不限量免费使用M1。API价格也极具性价比,在大家日常用得最多的0-32k输入长度区间,M1输入成本0.8元/百万token, 输出8元/百万token,价格不到DeepSeek-R1的20%和50%。

体验地址:https://chat.minimaxi.com

为什么这么便宜?因为MiniMax独创了Lightning Attention架构,翻译过来就是“闪电注意力”。提出了更快的CISPO强化学习算法,比字节提出的DAPO和DeepSeek早期的GRPO都要快。

这回,真是闪击全球大模型了。正如其名,以极小的成本实现极大的智能

M1在HuggingFace上排全球第二热门模型

这就是,MiniMax-M1。


Hailuo 02王者归来


6月18日,海螺视频王者归来,掏出了全新模型Hailuo 02。图生和文生,同步升级到02模型。

从实测表现来看:

  • 1.SOTA指令遵循。稳定性进一步提升,抽卡率大幅降低。

  • 2.画质升级。支持真1080P画质。

  • 3.极致的物理遵循。Hailuo 02可能是目前全球唯一可以生成体操表演的模型。

  • 4.生成速度提升

当然,还有最重要的价格。1万元,可以生成30000支720p-6s的视频和17142支1080p-6s的视频。

而某所谓大师模型,一支视频成本10元,被创作者吐槽为“性能提升30%,价格上涨500%”。

面对高居不下的视频成本,MiniMax没有选择压榨用户,而是压榨自己。新一代Hailuo 02模型,他们提出了Noise-aware Compute Redistribution(NCR)架构,将训练和推理效率提升了2.5倍。

最终交出的结果就是,Hailuo 02模型比01提升了3倍的参数量和4倍的数据量,数据质量和多样性得到显著提高。自然,视频质量也就大幅提升。

光说不练假把式,我给大家看一些海外创作者跑的Case。

@Pablo Prompt 是海外的一位Prompt大佬,他用Hailuo 02制作的猫咩奥运会视频,播放量已经超过150万。他开创的动物奥运会风格,最近正在海内外创作圈引发疯狂模仿。

这是原视频,大家可以看下。

Prompt:televised footage of a cat is doing an acrobatic dive into a swimming pool at the olympics, from a 10m high diving board, flips and spins.

中文版:电视镜头显示一只猫在奥运会上从10米高的跳台跳入游泳池,进行特技跳水,翻转和旋转。

我第一次看时,完全被这个效果给惊到了,猫咩起跳、空中旋转和入水,全套动作浑然天成,物理效果太令人疯狂了。

打戏和电影特效,Hailuo 02也非常擅长。

原博@padphone 更是建议大家,现在就忘了Veo3吧。

AI艺术大佬@KarolineGeorges 也连发3支视频,表达对Hailuo 02的喜爱。

我也随手制作了一支巨龙从海中升起的特写镜头,大片感满满。

体验地址:https://hailuoai.com

在X上,大家对Hailuo 02模型评论最多的一个词就是“insane(疯狂的)

毫无疑问,MiniMax用自己的模型能力和性价比,再一次宣告海螺王者归来。


通用Agent之光


通用Agent?不会又一个骗子吧。”Agent在经历最近2个月的野蛮生成后,大家对所谓的“通用Agent”已经不怎么感冒,没了最初的尝新冲动。

包括某M在内,一开始很惊艳,但是用过后聊胜于无,就形式上有点唬人。如果要让“通用Agent”真正干活,这时各种问题就来了。要么幻觉高居不下,要么检索质量太差,又或者流程巨复杂,交付出有bug的产品。

MiniMax Agent是我体验过“有点东西”的Agent。比如PPT生成,他直接做到了可交付的水准(测评文)。在信息质量和幻觉这块,更是出乎我的意料。

体验地址:https://agent.minimax.io

对于这款Agent,MiniMax介绍他们按照“人的标准”来进行设计。

  • 1.编程。对作品会做全面测试,不交付有bug网页。

  • 2.多模态。内置生图、生音频和生视频能力,可以直出图文音并茂的作品。

  • 3.MCP。内置MiniMax MCP,多模态输出能力强大且实惠;还集成Github、Figma、Slack、Notion等MCP,通过API key可快速接入。

比如这个Prompt,完成度就很高。

昨晚,你(AI)做了一个梦。梦里你拥有了人类的身体,但只有24小时。
请设计一个叫“梦想照进现实”的网站,描述你是如何度过这一天的,你在其中的心情如何,你深刻的感受是什么?网页里,可适当穿插一些你的独白(用minimax生成音频)。

过去,码农喜欢调侃一句:

Talk is cheap, show me the code.(空谈无益,代码为证)

现在,我们可以说:

Code is cheap,show me the requirement.(代码很廉价,给我看需求)

So,let me see your prompt now!


进化的Video Agent


如果Prompt要分3种形态:文本、图片和视频,视频Prompt无疑是最难的。

现在的视频生成技术已经非常强大,但我们想要做出优质的创意短片,一直都有着不小的门槛。为了解决这个问题,MiniMax对Hailuo Video Agent进行了3个阶段的规划:

  • 第一阶段,提供专业视频创意Agent模版,用户只需根据提示输入文字或图片,即可一键生成高质量的短片;

  • 第二阶段,半自定义视频Agent,让用户能够在视频生成的任一环节进行自由编辑;

  • 第三阶段,实现完全形态的端到端视频Agent。

MiniMax在Day4交出的Video Agent,便是第一阶段的产品。

比如,我们想做一个“万物变敦煌壁画”的视频,只需要输入6种动物名字就可以了。

我输入“老虎,大鱼,乌龟,豹子,丹顶鹤,龙”后,Agent会自己拟创作计划,先根据参考风格生图,然后用首尾帧出分镜,最后再剪辑成视频。

这是最终的成品。

从创意构思、分镜脚本设计,到生成图片素材、生成视频并配音,再到精细化剪辑,全部由Hailuo Video Agent完成,我所做的只需要花时间等待和备好贝壳(海螺积分)

这下,有点期待第二阶段的Agent了。


AI语音的Her Moment


关于MiniMax的TTS(Text-To-Speech,文本转语音 ),我之前有给大家详细介绍过(测评文)。

当时还只是Speech 01模型,现在已经升级到了Speech 02,一个具备Zero-shot能力的模型,可以提供任意语言 × 任意口音 × 任意音色

在两个基准(Artificial Analysis Speech Arena、Hugging Face TTS Arena)上,Speech 02均拿下了全球第一。

Speech 02的泛化能力非常强,理论上能够生成任何音色。

本次MiniMax Audio上新的,便是基于Speech 02提供的「音色设计」功能,可根据不同的角色Prompt,设计出极具个性化的音色。

比如,我们的角色是:

未来世界的科幻AI助手,声音冷静、理性,略带电子合成感,提供信息和指令。

这是根据该角色生成的音频demo。

再来一段。

可以说,这就是一个“会学习的音色生成器”。每个人,都可以根据自己的需求风格定制个性化的音色。

AI语音的Her Moment,正在逼近。


写在最后


大约2800多年前,一位古希腊诗人赫西俄德(Hesiod)写下一本长诗集《工作与时日》。里面提出 “人类五时代”:黄金时代、白银时代、青铜时代、英雄时代、黑铁时代。

这5个词,经常被用来描述一个领域的xx形态,比如房地产的黑铁时代、新能源的白银时代。

如果用在GenAI(生成式人工智能)领域,大抵现在就是“黄金时代”,代表了最初的理想状态。在这个黄金时代,既有五花八门的AI公司,也有让人五体投地的大模型厂商。

而MiniMax,我认为属于后者。

他用“Give me five days”,自然不是为了与大家“High five”(击掌、庆祝),也不是想秀自己的“五花肉”,而是给大家带来5款切实好用的AI模型和产品。

他自研了三个模型,文本全球第六,视频前二,音频第一;他创新了两个Agent,无论是通用还是视频,均做到了可交付的水准。

他在“智能”上限上探得更高,从线性注意力到闪电注意力,均致力于将上下文的长度和推理速度拉得更高;他在多模态领域做到技术SOTA,而成本碾压美国公司。他用自己的履历,诠释了什么是“AI里的中国制造”。

5月,我拍摄于MiniMax公司前台

这就是MiniMax,一直以极小的成本实现极大的智能。

Intelligence with Everyone,与所有人共创智能。

(文:沃垠AI)

发表评论