从DeepSeek-V3到Kimi K2:八种现代 LLM 架构大比较 2025年7月21日19时 作者 PaperAgent GPT-2以来七年,主要大模型架构对比分析。主要介绍DeepSeek V3、Mistral Small 3.1、Qwen3、SmolLM3等模型的架构特点及其在内存占用、性能优化等方面的创新点。