碾压DeepSeek推理4倍!MiniMax M1百万token长文屠榜,开源登顶全球前二

近日MiniMax开启#MiniMaxWeek技术周,发布全新M1模型。M1模型在训练与推理效率上显著提升,支持超长文本输入和输出(最大100万个token)。特别擅长Agent工具调用任务。核心技术包括混合注意力架构和CISPO算法。

MiniMax训练推理模型仅花384万元,售价对标豆包|快讯

MiniMax发布首款推理模型M1,支持最高100万Token上下文输入和8万Token推理输出,采用混合专家架构及闪电注意力机制。其训练阶段仅需512张英伟达H800 GPU三周完成,成本仅为384万元人民币,提供低廉API服务。MiniMax采取区间定价策略,并透露该模式加速AI智能体大规模应用。

MiniMax开源首个推理模型!456B参数,性能超DeepSeek-R1,技术报告公开

MiniMax发布全球首个开源大规模混合架构的推理模型MiniMax-M1,参数规模4560亿,在复杂的软件工程、工具使用和长上下文任务方面优于DeepSeek-R1。研究人员使用512块H800训练三周,成本约385.9万元。