华为:让DeepSeek的“专家们”动起来,推理延迟降10%! 下午4时 2025/05/20 作者 量子位 华为团队发布的OmniPlacement方法有效解决了MoE模型的负载不均衡问题,优化后理论可降低10%推理延迟和提升约10%吞吐量,近期将全面开源。