5.2PB训练数据归档

DeepSeek R2 参数被“意外”泄漏

2025年4月29日8时作者 PyTorch研习社

DeepSeek R2参数量高达1.2万亿，采用Hybrid MoE 3.0架构，在保持模型能力的同时实现了计算资源的极致压缩，并引入了专门针对法律文书分析的新模块。其多模态精度达到92.4%，误报率低，部署优势明显，支持国产芯片优化，预计未来将减少对西方依赖。

2025年4月27日19时作者 PaperAgent

DeepSeek R2泄露信息：1.2T参数、混合MoE架构；5.2PB训练数据，在C-Eval 2.0上达到89.7%的准确率；52%利用率华为昇腾910B芯片；价格仅为GPT-4o十分之一。