从DeepSeek-V3到Kimi K2:八种现代 LLM 架构大比较
GPT-2以来七年,主要大模型架构对比分析。主要介绍DeepSeek V3、Mistral Small 3.1、Qwen3、SmolLM3等模型的架构特点及其在内存占用、性能优化等方面的创新点。
GPT-2以来七年,主要大模型架构对比分析。主要介绍DeepSeek V3、Mistral Small 3.1、Qwen3、SmolLM3等模型的架构特点及其在内存占用、性能优化等方面的创新点。
AI研究者Kimi发布了首个大规模混合专家模型Moonlight-16B-A3B,其使用Muon优化器在5.7T tokens的训练中实现了约2倍的计算效率提升,并开源了分布式Muon实现版本和预训练模型。