资讯
国际
分享
大模型
学术
开源
机器人
关于我们

Muon优化器

从DeepSeek-V3到Kimi K2：八种现代 LLM 架构大比较

2025年7月21日19时作者 PaperAgent

GPT-2以来七年，主要大模型架构对比分析。主要介绍DeepSeek V3、Mistral Small 3.1、Qwen3、SmolLM3等模型的架构特点及其在内存占用、性能优化等方面的创新点。

分类分享标签 MoE模块、 Muon优化器、 NoPE、 Qwen3、 smollm3、位置嵌入发表评论

Kimi 模型，硬核开源…

2025年2月24日14时作者 PaperAgent

AI研究者Kimi发布了首个大规模混合专家模型Moonlight-16B-A3B，其使用Muon优化器在5.7T tokens的训练中实现了约2倍的计算效率提升，并开源了分布式Muon实现版本和预训练模型。

分类分享标签 3B/16B参数、 5.7T tokens、 kimi、 Moonshot AI、 Muon优化器、混合专家模型发表评论

搜索

AGI AI AI技术 Anthropic ChatGPT Claude Cursor DeepSeek DeepSeek-R1 GitHub GPT-4o LLM Meta OpenAI Python Sam Altman 人工智能人形机器人具身智能大型语言模型大模型大语言模型字节跳动工业机器人开源强化学习微软扩散模型技术创新智能体木易机器学习深度学习清华大学生成式AI 用户体验百度腾讯自然语言处理英伟达谷歌阿里云阿里巴巴马斯克黄仁勋

分类

分享
国际
大模型
学术
开源
机器人
资讯

Cursor 中最受欢迎的 5 个 MCP Server！
从GPT-5到DeepSeek V3.1，顶尖AI大模型的新方向出现了！
“AI购物代理”——电商下一个必争之地
无账号&特殊网络，如何畅跑 Claude Code｜附智谱「特别折扣」
文档多模态RAG方案哪个更好？9类Embedding+3类MLLM+4类框架对比及古籍文档数据合成工具

2026 年 1 月
一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

« 9 月

归档

2025 年 9 月
2025 年 8 月
2025 年 7 月
2025 年 6 月
2025 年 5 月
2025 年 4 月
2025 年 3 月
2025 年 2 月
2025 年 1 月
2024 年 12 月
2024 年 11 月

AI新闻 | X平台｜ APK反编译｜京ICP备2024096144号｜

© 2026 每时AI • Built with GeneratePress

下载我们的APP，AI秒送达！立即下载

×