DeepSeek-V2 归档 - 每时AI

DeepSeek的MLA，任意大模型都能轻松迁移了

2025年3月6日23时作者机器之心

工作为首个NoPE外推HeadScale、注意力分块外推LongHeads、多视觉专家大模型MouS

目前为止分析DeepSeek最全面的文章了

2025年2月3日23时作者 NLP工程化

DeepSeek-V2 采用 DeepSeekMoE 架构优化训练成本和推理效率，引入稀疏激活的专家网络。