混合专家归档

MiniMax训练推理模型仅花384万元，售价对标豆包｜快讯

2025年6月17日16时作者 AI前哨站

MiniMax发布首款推理模型M1，支持最高100万Token上下文输入和8万Token推理输出，采用混合专家架构及闪电注意力机制。其训练阶段仅需512张英伟达H800 GPU三周完成，成本仅为384万元人民币，提供低廉API服务。MiniMax采取区间定价策略，并透露该模式加速AI智能体大规模应用。

Linear-MoE：线性注意力遇上混合专家的开源实践

2025年5月29日23时作者机器之心

近年来，大语言模型的研究热点转向了线性序列建模和混合专家架构的高效结合。来自上海人工智能实验室团队的Linear-MoE首次系统地实现了这两者的结合，并开源了完整的技术框架，支持层间混合架构。

Qwen3发布！超DeepSeek R1登顶开源榜，还带来了跟R1不同配方

2025年4月29日11时作者硅星人Pro

阿里巴巴开源新一代通义千问Qwen3系列模型，包含8款不同尺寸。旗舰模型Qwen3 235B采用混合专家（MoE）架构，在多项测评中超越DeepSeek-R1、OpenAI-o1等主流模型。性能提升体现在推理、指令遵循、工具调用、多语言能力等方面。Qwen3全尺寸发布后，社区反响热烈，参数正在“变小”但保持出色表现。