DeepSeek开源第三弹!极致榨干GPU,FP8训推秘籍公开

DeepGEMM是DeepSeek开源的一款支持FP8 GEMM的库,为V3/R1训练和推理提供动力,在Hopper GPU上性能高达1350+ FP8 TFLOPS。该库采用JIT即时编译技术,核心逻辑约为300行,仅支持英伟达Hopper Tensor Core架构,设计简单高效,且在某些形状上的表现优异。

向视觉版o1出击,阶跃张祥雨团队推出“慢感知”,实现感知层面的推理时scaling

研究团队提出’慢感知’概念,通过分解复杂几何图形为基本形状单元简化处理,并引入’感知流动’机制进行逐步推理。该方法旨在提高视觉模型对复杂几何结构的理解能力,提升多模态大模型在几何解析任务上的表现。

仅缩小视觉Token位置编码间隔,轻松让多模态大模型理解百万Token!清华大学,香港大学,上海AI Lab新突破

文章介绍了V2PE(Variable Vision Position Embedding),一种用于增强视觉-语言模型在长上下文场景表现的位置编码方法。通过实验验证了其有效性和优势,为视觉-语言模型的发展带来了新的机遇。