腾讯混元A13B用130亿参数达到千亿级效果,Flash Attention作者点赞
腾讯混元团队发布的Hunyuan-A13B模型,仅通过激活130亿参数就展现了与千亿级大模型相抗衡的能力。该模型采用了细粒度MoE架构,在单张中端GPU上运行性能出色,已在腾讯云上线API服务。模型采用了高质量预训练和结构化后训练技术,并且支持多种推理框架。
腾讯混元团队发布的Hunyuan-A13B模型,仅通过激活130亿参数就展现了与千亿级大模型相抗衡的能力。该模型采用了细粒度MoE架构,在单张中端GPU上运行性能出色,已在腾讯云上线API服务。模型采用了高质量预训练和结构化后训练技术,并且支持多种推理框架。
DeepSeek开源高效FP8精度矩阵乘法库DeepGEMM,支持NVIDIA Hopper架构,在密集和分组矩阵乘法下性能提升显著,使用方便,支持广泛应用场景。
DeepSeek 开源首个用于MoE模型训练和推理的EP通信库 DeepEP,优化高效通信和并行处理,支持FP8精度,并提供灵活资源调度。
DeepSeek OpenSourceWeek 发布了首个面向MoE模型的开源EP通信库 DeepEP。它提供了高性能All-to-All通信内核、集群内和集群间全面支持,以及训练和推理预填充及推理解码低延迟内核等特性。性能测试显示其在不同场景下都能提供出色的通信性能。