DeepSeek创始人梁文锋亲自署名的论文长啥样?

最近,DeepSeek团队发表的论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》引起广泛关注。该文由DeepSeek创始人梁文锋亲自署名。NSA(Natively Sparse Attention)通过动态分层稀疏策略、粗粒度token压缩和细粒度token选择,显著提升了长文本处理速度,并在多个任务中超越了传统注意力模型。

大模型推理部署的几个基本认知及prompt压缩策略用于COT推理微调尝试

2025年02月21日星期x,介绍了大模型推理压缩策略,包括TokenSkip方法用于Controllable Chain-of-Thought(COT),通过分析和剪枝减少冗余token提高推理效率。相关研究文献推荐加入了LoRA微调技术。

【揭秘】AI幻觉:DeepSeek是如何产生幻觉的?如何应对与发挥创造力价值!

文章介绍了AI幻觉的概念及其对用户的影响,并探讨了DeepSeek大模型中存在的问题及解决方案。通过技术方案和技术策略的有效应用,可以减少AI幻觉对用户的负面影响,同时发掘其潜在创造力价值。