DeepSeek R2 参数被“意外”泄漏

DeepSeek R2参数量高达1.2万亿,采用Hybrid MoE 3.0架构,在保持模型能力的同时实现了计算资源的极致压缩,并引入了专门针对法律文书分析的新模块。其多模态精度达到92.4%,误报率低,部署优势明显,支持国产芯片优化,预计未来将减少对西方依赖。

大模型是怎么“思考”的?五分钟看懂大模型的底层逻辑!

近年来ChatGPT爆火,让大语言模型走进大众视野。本文系统梳理了其原理、训练方式及其应用,涵盖数据、架构和训练三大要素,并展示了微调与实际应用场景,如客户服务、内容创作等。