刚刚，DeepSeek 发布了新模型！

DeepSeek 又一次在假期前搞事情了。明天就是五一假期，今天突然发布新模型，直接把热度拉满（不确定五一期间会不会有其他大模型发布，例如 R2？）。

DeepSeek 这次发布的是 DeepSeek-Prover-V2-671B。

新模型发布

DeepSeek 官方在 Hugging Face 上突然上线了 DeepSeek-Prover-V2-671B。这个模型一上线就引发了关注，短时间内获得了大量点赞。大家都在讨论它的参数和潜力。

模型参数

DeepSeek-Prover-V2-671B 的参数量是 671B。这个数字很大。上一代 DeepSeek-Prover-V1.5 只有 7B。新模型的规模提升很明显。

模型采用 Deepseek-V3 架构。很多配置和 DeepSeek-V3 一致。比如 MoE（Mixture of Experts）结构。每一层都是 MoE 层。每层包含 1 个共享专家和 256 个路由专家。每个 token 会激活 8 个专家。中间层大小为 2048。最大可处理 163,840 长度的上下文。

模型的 attention 头数为 128，隐藏层大小为 7168，隐藏层总数为 61。激活函数用的是 silu。词表大小为 129,280。

量化方式采用 fp8，权重块大小为 128×128。支持 bfloat16。

Prover 系列介绍

Prover 系列是 DeepSeek 专门为数学问题和定理证明设计的。上一代 V1.5 在 Lean4 定理证明上表现不错。这次直接升级到 671B，性能值得期待。

官方信息

目前 DeepSeek 还没有发布官方技术报告。模型已经可以在 Hugging Face 上找到。大家可以关注后续官方消息。

总结

DeepSeek-Prover-V2-671B 的发布让大家看到了大模型在数学推理领域的进步。参数量大，架构新，应用场景广。后续表现如何，值得持续关注。

模型地址：https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B/tree/main

欢迎留言讨论你的看法。

（文：AI智见录）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

新模型发布

模型参数

Prover 系列介绍

官方信息

总结

发表评论 取消回复

发表评论取消回复