混合专家架构归档

开放世界任务成功率82%！美的攻克机器人泛化控制难题

2025年7月15日16时作者量子位

美的AI研究院和华东师范大学联合提出ChatVLA-2模型，具备开放世界具身推理能力。通过动态混合专家架构和双阶段训练策略，模型在数学匹配游戏和玩具摆放任务中展示出色表现，成功率达82%。

小红书开源首个大模型，11万亿非合成训练数据

2025年6月9日8时作者 AIGC开放社区

国内社交平台小红书开源首个专家混合模型Dots.llm1，参数规模达1420亿，使用11.2万亿token非合成数据训练，在中文测试中表现优异。

Qwen3 凭什么封神？这 8 个关键点告诉你答案！

2025年5月2日14时作者 AI信息Gap

五一前夕，阿里通义千问发布的Qwen3系列模型在开源领域再次取得突破，支持多种语言、高性能计算和混合专家架构。该模型包括Qwen3-235B-A22B和Qwen3-30B-A3B两个核心模型，覆盖119种语言，并提供丰富的训练数据以降低部署成本。

1000万上下文！新开源多模态大模型，单个GPU就能运行

2025年4月7日8时作者 AIGC开放社区

Meta 最新开源模型 Llama 4 Scout 达到千万级上下文，拥有 1090 亿参数。其使用 NoPE 架构解决长度泛化问题，并通过优化训练流程和强化学习框架提升性能。

炸裂！Meta深夜推出Llama 4系列：单卡H100能跑，千万上下文，还有2万亿“巨兽”

2025年4月6日8时作者 AI寒武纪

Meta发布了Llama 4系列首批模型，采用混合专家架构并支持多模态训练。推出了性能最强的小尺寸模型Scout、同级别最佳的Maverick以及正在开发中的Behemoth预览版。Llama 4 Scout和Maverick均支持高性能低成本比，实现了业界领先的1000万+ Token 多模态上下文窗口，并提供了智能调参技术和后训练策略优化。

AMD GPU性能暴涨7倍，优化算法首次开源！高效MoE支持任意专家数量

2025年4月3日16时作者新智元

PERT_NUMBER==256），并积极利用共享内存（5kB LDS）和寄存器（52 VGPRs，

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31