GPU效率暴涨!DeepSeek开源DeepGEMM,仅300行代码
DeepSeek开源高效FP8精度矩阵乘法库DeepGEMM,支持NVIDIA Hopper架构,在密集和分组矩阵乘法下性能提升显著,使用方便,支持广泛应用场景。
DeepSeek开源高效FP8精度矩阵乘法库DeepGEMM,支持NVIDIA Hopper架构,在密集和分组矩阵乘法下性能提升显著,使用方便,支持广泛应用场景。
专注AIGC领域的专业社区报道了医疗AI初创公司OpenEvidence获得7500万美元融资的新闻。产品为医生提供AI聊天机器人协助诊疗决策,避免’幻觉’问题并靠口碑传播。红杉资本认为其商业模式独特且有潜力。
微软开源多模态AI Agent基础模型Magma,具备跨数字、物理世界的多模态能力。Magma可自动处理图像、视频等数据,并内置心理预测功能。MAGMA架构使用视觉与大语言模型的混合技术实现多模态能力,展示了其在不同场景中的应用。
专注AIGC领域的专业社区分享了开源的DeepEP库,用于优化混合专家模型训练和推理。DeepEP支持高效的All-to-All通信机制、高吞吐量和低延迟内核,以及原生支持FP8格式。
专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言等大语言模型发展和应用落地。谷歌发布新研究Titans,通过神经长期记忆模块扩展大模型上下文窗口至200万token,超越现有Transformer模型。
专注AIGC领域的专业社区报道了Anthropic发布首个双思维模型Claude 3.7 Sonnet,提供了标准和扩展两种思考模式,并展示了其在代码能力和透明性方面的优势。
专注AIGC领域的专业社区分享了DeepSeek开源的FlashMLA内核,该内核针对Hopper GPU进行了优化,实现了3000 GB/s内存带宽和580 TFLOPS计算性能,支持BF16并采用分页KV缓存技术。
专注AIGC领域的专业社区报道了中国开源大模型DeepSeek-R1在huggingface平台上的成功表现。R1成为最受欢迎的开源大模型之一,点赞超过1万次。