华为:让DeepSeek的“专家们”动起来,推理延迟降10%! 2025年5月20日16时 作者 量子位 华为团队发布的OmniPlacement方法有效解决了MoE模型的负载不均衡问题,优化后理论可降低10%推理延迟和提升约10%吞吐量,近期将全面开源。