SGLang Team:在 96 个 H100 GPU 上部署具有 PD 分解和大规模专家并行性的 DeepSeek
25-05-05-large-scale-ep
DeepSeek 是一个广受欢迎的开源大型语言模型
25-05-05-large-scale-ep
DeepSeek 是一个广受欢迎的开源大型语言模型
本文介绍了五个AI工具包和模型,包括olmOCR用于处理PDF文档、DeepGEMM优化FP8矩阵乘法、R1-OneVision多模态大语言模型、Baichuan-Audio语音交互模型以及MyCoder AI编程工具。
DeepSeek开源的DeepGEMM库在Hopper GPU上实现FP8 GEMM,最高可达1350+ FP8 TFLOPS。它仅约300行代码,设计简洁,性能表现与专家调优的复杂库相当甚至更好,在各种矩阵形状和模型类型上均保持优势。
DeepGEMM是DeepSeek开源的一款支持FP8 GEMM的库,为V3/R1训练和推理提供动力,在Hopper GPU上性能高达1350+ FP8 TFLOPS。该库采用JIT即时编译技术,核心逻辑约为300行,仅支持英伟达Hopper Tensor Core架构,设计简单高效,且在某些形状上的表现优异。