每时AI
工作为首个NoPE外推HeadScale、注意力分块外推LongHeads、多视觉专家大模型MouS
DeepSeek-V2 采用 DeepSeekMoE 架构优化训练成本和推理效率,引入稀疏激活的专家网络。