CUDA
一文看懂 DeepSeek 刚刚开源的 FlashMLA,这些细节值得注意
今天正式推出DeepSeek开源周,FlashMLA在极短时间内收获超过3.5K Star。它是针对HopperGPU优化的高效MLA解码内核,支持变长序列处理。FlashMLA通过优化减轻了内存占用并加速计算过程。
DeepSeek绕开CUDA垄断,V3论文细节再挖出!英伟达护城河不存在了?
新智元报道
DeepSeek团队通过优化英伟达GPU的PTX指令集,绕过了CUDA实现了高效训练超大规模语言模型。这一突破引发了业界对CUDA护城河的质疑。
“DeepSeek甚至绕过了CUDA”,论文细节再引热议,工程师灵魂提问:英伟达护城河还在吗?
英伟达新硬件优化论文《DeepSeek-V3》绕过CUDA直接使用PTX编程语言进行优化,大幅提升硬件效率。专家指出这不代表完全脱离CUDA生态,而是展示出优化其他GPU的能力,并引发了对AI是否能编写底层代码的讨论。
LM Studio自带CUDA llama.cpp (Windows) 支持DeepSeek R1
LM Studio支持CUDA llama.cpp (Windows)与DeepSeek R1的结合,欢迎关注知识星球获取更多资源。
激进架构,400万上下文,彻底开源:MiniMax-01有点“Transformer时刻”的味道了
作者
|
王兆洋
邮箱
|
wangzhaoyang
@pingwest.com
“MoE”加上“前