Sparse Transformers稀疏推理加速器 2025年6月12日8时 作者 NLP工程化 大模型推理加速器Sparse Transformers通过稀疏化技术提升1.6-1.8倍性能,支持LLaMA 3B模型,并实现内存占用减少和生成速度提升。