DeepSeek R2 参数被“意外”泄漏
DeepSeek R2参数量高达1.2万亿,采用Hybrid MoE 3.0架构,在保持模型能力的同时实现了计算资源的极致压缩,并引入了专门针对法律文书分析的新模块。其多模态精度达到92.4%,误报率低,部署优势明显,支持国产芯片优化,预计未来将减少对西方依赖。
DeepSeek R2参数量高达1.2万亿,采用Hybrid MoE 3.0架构,在保持模型能力的同时实现了计算资源的极致压缩,并引入了专门针对法律文书分析的新模块。其多模态精度达到92.4%,误报率低,部署优势明显,支持国产芯片优化,预计未来将减少对西方依赖。
DeepSeek R2泄露信息:1.2T参数、混合MoE架构;5.2PB训练数据,在C-Eval 2.0上达到89.7%的准确率;52%利用率华为昇腾910B芯片;价格仅为GPT-4o十分之一。