FlashInfer集成TensorRT-LLM cubin kernel技术分析 2025年7月19日14时 作者 GiantPandaCV LLM的优化kernel无缝集成到自己的生态系统中,而不用把超大的TensorRT-LLM源码放进来
最新W4A4KV4全量化框架,单卡A100大模型推理速度飙升 2025年5月24日8时 作者 AIGC开放社区 COMET框架在ASPLOS 2025上发布,实现了权重、激活和KV缓存全4比特压缩下的高性能推理,仅造成0.32的困惑度微增,并实现端到端推理加速2.02倍。
MoE之年的总结和MoE 推理优化的一些认识 2025年2月4日19时 作者 GiantPandaCV 0x0. 前言 祝大家新年快乐! 希望大家天天开心,学业有成,工作顺利。 我是在2025农历新年的大