Llama
月之暗面开源改进版Muon优化器,算力需求比AdamW锐减48%,DeepSeek也适用
OpenAI团队的优化算法Muon在更大模型和数据集上的应用效果被月之暗面团队验证,改进后的Muon对1.5B参数量Llama架构模型的算力需求仅为AdamW的52%,同时基于DeepSeek架构训练出一个16B的MoE模型并开源。
DeepSeek R1 – 最强大的开源推理模型:包含经过蒸馏优化的 Llama 和 Qwen 模型
DeepSeek R1开源模型发布,包括Llama和Qwen蒸馏版本,支持GGUF格式和4位量化,7B模型压缩至4.68G。
ChatGPT 发布后这两年,该关注什么?打包了24个主题350多篇高质量文章
ChatGPT 发布两年后,OpenAI 引领着 AI 发展潮流,但开源竞争者也在奋力追赶。扩散模型的成功推动了视觉生成模型的发展。小模型、多模态和具身智能等领域也备受关注。