量化优化归档

华为曝光两大黑科技！打破推理延迟魔咒，大模型从此「秒回」

2025年5月21日16时作者新智元

FusionSpec创新的框架设计配合昇腾强大的计算能力，将投机
推理框架耗时
降至毫秒级，打破延迟

2025年1月23日8时作者 NLP工程化

Doubao-1.5-pro 模型针对MoE模型的四个计算象限提出异构硬件结合低精度优化策略，提升吞吐量和降低总成本。通过定制化的RPC后端、灵活配比的Prefill和Decode集群以及GPU与CPU的异步化处理，实现高效稳定的推理系统。

2024年12月30日23时作者极市干货

寒冷的周末, 加完班挤点时间读个论文吧. Deepseek-v3仅用了2048块H800 GPU就超