FP8精度归档 - 每时AI

腾讯混元A13B用130亿参数达到千亿级效果，Flash Attention作者点赞

2025年7月14日23时作者量子位

腾讯混元团队发布的Hunyuan-A13B模型，仅通过激活130亿参数就展现了与千亿级大模型相抗衡的能力。该模型采用了细粒度MoE架构，在单张中端GPU上运行性能出色，已在腾讯云上线API服务。模型采用了高质量预训练和结构化后训练技术，并且支持多种推理框架。

2025年2月26日12时作者 AIGC开放社区

DeepSeek开源高效FP8精度矩阵乘法库DeepGEMM，支持NVIDIA Hopper架构，在密集和分组矩阵乘法下性能提升显著，使用方便，支持广泛应用场景。

2025年2月25日16时作者机器之心

DeepSeek 开源首个用于MoE模型训练和推理的EP通信库 DeepEP，优化高效通信和并行处理，支持FP8精度，并提供灵活资源调度。

2025年2月25日16时作者 AI寒武纪

DeepSeek OpenSourceWeek 发布了首个面向MoE模型的开源EP通信库 DeepEP。它提供了高性能All-to-All通信内核、集群内和集群间全面支持，以及训练和推理预填充及推理解码低延迟内核等特性。性能测试显示其在不同场景下都能提供出色的通信性能。