QK-Clip巧解MaxLogit爆炸难题:让Muon在Scaleup之路上更进一步 2025年7月17日23时 作者 PaperWeekly 网络 四个月前,我们发布了 Moonlight [1] ,在 16B 的 MoE 模型上验证了 Mu
Dynamo:NVIDIA最新开源的数据中心级分布式推理框架 2025年3月20日11时 作者 AI工程化 近日NVIDIA推出开源高性能推理框架Dynamo,专为大规模分布式环境中的生成式AI模型服务设计。它提高了吞吐量30倍以上,并提供了分离预填充、智能路由和动态GPU调度等核心组件来优化性能。