TensorRT-LLM 归档 - 每时AI

FlashInfer集成TensorRT-LLM cubin kernel技术分析

2025年7月19日14时作者 GiantPandaCV

LLM的优化kernel无缝集成到自己的生态系统中，而不用把超大的TensorRT-LLM源码放进来

最新W4A4KV4全量化框架，单卡A100大模型推理速度飙升

2025年5月24日8时作者 AIGC开放社区

COMET框架在ASPLOS 2025上发布，实现了权重、激活和KV缓存全4比特压缩下的高性能推理，仅造成0.32的困惑度微增，并实现端到端推理加速2.02倍。

MoE之年的总结和MoE 推理优化的一些认识

2025年2月4日19时作者 GiantPandaCV

0x0. 前言
祝大家新年快乐! 希望大家天天开心，学业有成，工作顺利。
我是在2025农历新年的大