加速效果归档

[Triton编程][基础]vLLM Triton Merge Attention States Kernel详解

2025年6月13日14时作者 GiantPandaCV

7907703243110
编辑丨GiantPandaLLM
0x00 前言
本文介绍vLLM中Tr

2024年11月17日23时作者每时AI

卡内基梅隆大学提出了一种新的视频大模型加速方法Run-Length Tokenization（RLT），通过将连续相同的图像块合并为一个token，使得Transformer的视频处理速度大幅提升。精度几乎没有损失的前提下，训练时间可缩短30%，推理阶段提速率可达67%。