-
便宜,正式训练成本仅要557万美元(2000张H800),而GPT-4o预估一亿美金 -
编程能力超过 Claude Sonnet 3.5



半精度 236B的DeepSeek V2,占用 490G 显存,需要 7张 80G A100
https://huggingface.co/deepseek-ai/DeepSeek-V3-Base/tree/main
https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf
(文:PaperAgent)