刚刚,DeepSeek 发布了新模型!

DeepSeek 又一次在假期前搞事情了。明天就是五一假期,今天突然发布新模型,直接把热度拉满(不确定五一期间会不会有其他大模型发布,例如 R2?)。

DeepSeek 这次发布的是 DeepSeek-Prover-V2-671B。

新模型发布

DeepSeek 官方在 Hugging Face 上突然上线了 DeepSeek-Prover-V2-671B。这个模型一上线就引发了关注,短时间内获得了大量点赞。大家都在讨论它的参数和潜力。

模型参数

DeepSeek-Prover-V2-671B 的参数量是 671B。这个数字很大。上一代 DeepSeek-Prover-V1.5 只有 7B。新模型的规模提升很明显。

模型采用 Deepseek-V3 架构。很多配置和 DeepSeek-V3 一致。比如 MoE(Mixture of Experts)结构。每一层都是 MoE 层。每层包含 1 个共享专家和 256 个路由专家。每个 token 会激活 8 个专家。中间层大小为 2048。最大可处理 163,840 长度的上下文。

模型的 attention 头数为 128,隐藏层大小为 7168,隐藏层总数为 61。激活函数用的是 silu。词表大小为 129,280。

量化方式采用 fp8,权重块大小为 128×128。支持 bfloat16。

Prover 系列介绍

Prover 系列是 DeepSeek 专门为数学问题和定理证明设计的。上一代 V1.5 在 Lean4 定理证明上表现不错。这次直接升级到 671B,性能值得期待。

官方信息

目前 DeepSeek 还没有发布官方技术报告。模型已经可以在 Hugging Face 上找到。大家可以关注后续官方消息。

总结

DeepSeek-Prover-V2-671B 的发布让大家看到了大模型在数学推理领域的进步。参数量大,架构新,应用场景广。后续表现如何,值得持续关注。

模型地址:https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B/tree/main

欢迎留言讨论你的看法。


(文:AI智见录)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往