OmniPlacement 归档 - 每时AI

华为：让DeepSeek的“专家们”动起来，推理延迟降10%！

2025年5月20日16时作者量子位

华为团队发布的OmniPlacement方法有效解决了MoE模型的负载不均衡问题，优化后理论可降低10%推理延迟和提升约10%吞吐量，近期将全面开源。