无损加速视觉语言模型推理！轻松剪掉视觉冗余Token｜腾讯AI Lab

VScan团队投稿
量子位 | 公众号 QbitAI

多图像、长视频、细粒度感知正在让大型视觉语言模型（LVLM）变得越来越聪明，但也越来越“吃不消”：

视觉Token数量的激增所带来的推理成本暴涨，正逐渐成为多模态智能扩展的最大算力瓶颈。

为解决这个问题，腾讯AI Lab联合CMU提出全新解决方案VScan。

该方法聚焦于大规模视觉语言模型推理阶段的效率瓶颈，通过精妙的两阶段视觉token筛选机制，在几乎不损性能的前提下，实现高达2.91x的推理加速。无需修改模型架构、无需重新训练，兼容FlashAttention，VScan为业界提供了一种轻量、通用、即插即用的推理加速方案。

为了处理更复杂、更丰富的视觉输入，现有LVLM往往需要编码远超文本Token规模的视觉信息。例如，LLaVA-NeXT在处理高分辨率图像时会引入多达2,880个视觉Token，而Qwen2.5-VL在应对多图像或视频输入时，甚至能处理高达16,384个视觉Token——这一规模已远远超过传统语言模型所处理的输入长度。

随着Token数量的激增，输入序列随之拉长，而自注意力机制的计算复杂度呈平方增长，这使得推理阶段的显存开销和计算负担也随之指数级上升。结果不仅拖慢模型运行速度，甚至使得一些真实应用场景面临性能瓶颈，模型“看得清”却“算不起”。

简而言之：看得越多，算得越慢；视觉越丰富，推理越吃力。

如何在保留关键视觉信息的同时，有效减轻token冗余，成为当前多模态智能落地亟需破解的关键难题。

VScan已在多个主流视觉语言模型上展开实证验证，包括 LLaVA-1.5、LLaVA-NeXT、Qwen2.5-VL 和Video-LLaVA，覆盖图像问答、视频理解、视觉定位等典型任务。

实验显示，VScan不仅能有效减少视觉token输入量，还能在几乎不降低准确率的情况下，大幅缩短推理时间。

更关键的是，VScan不依赖特定架构或任务，可无缝集成到现有LVLM中，适用于大多数视觉输入密集型场景，极大降低了部署门槛与工程成本。无论是追求实时性的工业应用，还是资源受限的边缘设备，VScan都展现出了强大的通用性与实用价值。

目前，VScan已在GitHub开源。

背景：现有视觉Token剪枝方法的两大技术路线

在多模态任务中，并非所有视觉Token都对最终输出有实质性贡献。为提升推理效率，近年研究陆续提出了一系列视觉Token剪枝（Visual Token Reduction）技术，通过剔除视觉冗余或与文本语义无关的Token，以减少计算和显存开销。这些方法大致可分为两大类：

文本无关（Text-agnostic）剪枝方法：此类方法在视觉编码阶段对输入进行压缩，完全依赖图像自身的内容特征，不考虑文本信息。通常通过视觉自注意力权重或视觉编码器输出层中[CLS] Token的关注度，来衡量每个Token的重要性，从而剔除冗余信息。代表性工作包括 VisionZip、Folder 等。
文本相关（Text-aware）剪枝方法：该类方法则在语言解码阶段引入文本指导信息，依据视觉Token与文本查询之间的相关性进行剪枝，以保留与任务强相关的信息同时减少冗余计算。代表性方法包括SparseVLM、PyramidDrop等。

尽管上述两类方法在多个基准任务上展现出可观的加速效果，但它们大多采用单阶段、局部视角的剪枝策略，要么仅关注视觉编码阶段的冗余信息，要么仅在语言解码时进行基于文本的Token选择。

然而，视觉语言模型的推理过程是一个跨模态、跨层次的多阶段处理流程，视觉Token的语义贡献与重要性并非在单一阶段中就能完整体现。例如，一些在视觉编码阶段看似不重要的Token，可能在与语言交互后被重新激活；而部分在语言引导下看似相关的Token，最终可能并未被模型用于生成答案。

因此，团队认为现有方法缺乏对视觉Token跨阶段信息流的系统性理解，难以充分释放LVLM的推理潜力。为此，团队对视觉Token在LVLM整个推理流程中的流动与作用进行深入分析，从输入到视觉编码、再到语言解码阶段，全面刻画每个Token的任务贡献。这一系统性分析为设计更高效、更鲁棒的剪枝方法提供了新视角，也为新方法VScan奠定了基础。

重新思考视觉剪枝新范式

在本节中，对视觉语言模型（LVLM）在视觉编码与语言解码两个阶段中如何处理视觉Token进行系统分析。通过实证研究，揭示了视觉信息在模型内部的传递路径与阶段性变化，并据此为设计更高效的视觉Token剪枝策略提供了实证经验。

重新思考文本无关（Text-agnostic）剪枝方法

团队提出了一个核心问题：单纯依赖输出层的[CLS]注意力，真的能捕捉所有与任务相关的视觉信息吗？

在深入分析后发现一个被广泛忽视的核心问题：此类方法往往倾向于保留图像中视觉显著的目标区域（如人物、墙面等），而忽略那些看似不重要的背景细节。但事实上，这些“被丢弃”的区域中，往往隐藏着决定模型正确性的任务关键信息。

来看一个直观例子（见下图左侧）：模型将注意力集中在“墙”和“人”上，却忽略了问题实际关注的“锅”和“皮包”，导致模型输出错误回答。

那么，问题出在哪？

进一步深入研究视觉信息在编码器内部的流动方式，不仅可视化了不同层的[CLS]注意力，还跟踪了不同层中视觉Token的自注意力行为（见图右），结果发现：

1 浅层编码器中的[CLS]注意力图更倾向于捕捉图像中的局部细节与边缘信息；
2 随着网络加深，注意力逐步收敛到图像中的主要实体与高层语义区域；
3 相似地，视觉Token的自注意力模式也从“局部聚焦”演化为“全局融合”。

这些现象共同揭示了视觉编码器中一个清晰的趋势：从低层的局部感知，逐步过渡到高层的语义整合。也就是说，虽然输出层更接近任务语义，但早期层中所蕴含的丰富细节信息若被忽视，仍可能对模型性能产生关键影响。

结论很明确：剪不剪冗余Token，不能只看最后一层。有效的视觉Token剪枝策略，应当从整个编码流程中理解每个Token的动态价值，而不是仅凭输出时刻的注意力强度做决策。

重新思考文本相关（Text-aware）剪枝方法

许多研究者提出了基于文本的剪枝方法，在语言模型（LLM）解码的早期层就对视觉Token进行压缩，以降低计算负担。听起来挺合理的——“趁早剪掉没用的，不就轻松加速了吗？”但越早剪，真的越好吗？

通过三项系统性实证研究，在POPE和GQA两个代表性任务上，深入剖析了视觉信息在LLM解码阶段的流动模式，结果令人意外。

实证研究一：早期剪枝可能受到“位置偏置”影响。

首先可视化使用 LLaVA-1.5-7B 在不同层（第2、8、16层）以50%保留率剪枝后的Token空间分布。结果发现，早期层往往选择图像底部的Token，这并非因为底部信息更重要，而是源于一种潜在的LLM序列位置偏置：解码时最后一个指令Token更倾向关注序列中与自己“位置更近”的Token，而图像在展平后，底部区域的Token刚好处于靠近指令的位置。相反，到了更深层，模型的注意力逐渐从边缘转向图像中心——更符合对“任务相关区域”的直觉。

实证研究二：模型在哪一层才真正“看见”图像？

进一步分析 LLaVA-1.5-7B 和 Qwen2.5-VL-7B 中，不同层指令Token对视觉Token的注意力强度，结果显示：

早期层基本专注于文本处理，对视觉几乎“视而不见”；
中间层才是模型真正与图像交互的关键阶段；
而深层又回归语言建模，更关注生成输出本身。

这意味着：早期剪掉视觉Token，剪的是模型尚未理解的“潜力股”；中间剪枝，才能在模型“看清楚”之后做出更明智的取舍。

实证研究三：模型在哪一层才开始“稳定输出”？

最后研究在不同LLM层中，隐状态所预测的下一个Token是否已趋于稳定。结果发现：

在简单任务（如POPE）中，预测在第16层附近已基本收敛；
在复杂任务（如GQA）中，稳定性直到第20层左右才显现。

这进一步佐证：模型真正完成多模态融合、信息判断与输出决策，发生在解码过程的中后段，而不是最初几层。

三项实证研究共同揭示：在LLM解码的早期进行视觉剪枝并非最佳选择。不仅存在位置偏置，还错过了模型尚未深入理解的关键视觉信息。相比之下，在中间层进行剪枝，既能保留必要的跨模态交互，又能最小化对最终输出的干扰——是更优的剪枝“黄金时机”。

VScan：融合视觉编码与语言解码的双阶段剪枝机制

基于上述分析，VScan设计了一个无需训练、结构轻量、效果显著的两阶段剪枝框架，分别在视觉编码阶段与语言解码阶段对视觉Token进行精细筛选，做到既减少计算开销，又不损任务性能。

第一阶段：视觉编码阶段，兼顾全局与局部的“先剪一刀”

在视觉编码器阶段，VScan结合了两个互补视角：

全局扫描（Global Scan）：从模型最后一层提取[CLS]注意力，保留那些在语义层面上对整幅图像最关键的视觉Token。类似于选出图像中的“主要角色”；
局部扫描（Local Scan）：回到模型的浅层，通过划分图像窗口，在每个局部区域中挑选出细节丰富、易被主干注意力忽略的Token，确保模型依然具备对关键局部的感知能力。

最终，VScan将这两部分Token合并，构建出既具语义代表性又保留细节多样性的视觉Token集合，大幅度压缩输入长度的同时，保留任务所需的信息密度。

此外，为防止信息直接丢失，VScan还引入了相似性引导的Token融合策略，将被剪掉的视觉Token按语义相近原则映射回保留Token中，从而在“剪”的同时“补”回必要的信息。

第二阶段：语言解码阶段，进一步剪掉文本无关的“冗余视觉信息”

完成第一轮视觉压缩后，VScan进一步在语言模型的解码阶段进行文本引导剪枝。不同于以往直接在解码早期就开始“动刀”，VScan将剪枝时机选择在中间层（如第16层或第20层），正是模型最活跃地进行多模态交互的阶段。

在这一阶段，VScan通过计算视觉Token与最后一个指令Token之间的注意力强度，筛选出真正与当前文本语境相关的视觉信息。这一策略最大限度避免了前期位置偏置带来的误剪问题，同时保留了对最终输出起关键作用的跨模态信息。

实验结果：有效减少视觉Token数量，显著缩短推理时间

为全面评估VScan的适用性与实用价值，团队将其应用于四种主流视觉语言模型（LVLM），涵盖不同架构与任务类型，验证其在多种实际场景下的推理加速能力与性能稳定性。具体包括 LLaVA-1.5、LLaVA-NeXT、Video-LLaVA 以及 Qwen-2.5-VL，后者还涵盖 3B、7B 与 32B 等不同模型规模，确保评估覆盖从轻量级到超大规模模型的广泛应用需求。同时将VScan与当前最具代表性的六种视觉Token压缩方法进行了系统对比，全面检验其剪枝策略的优越性。

在评测任务方面，覆盖了图像理解、视频问答与视觉定位三大类别，涉及16个主流多模态基准数据集，包括 GQA、ScienceQA、VQAv2、TextVQA、VizWiz、MMBench、MMBench-CN、MME、POPE、RefCOCO 系列，以及视频问答中的 TGIF、MSVD、MSRVTT 和 ActivityNet。这些任务既包括结构化问题回答，也涉及复杂的推理、多模态对齐与时序建模，为测试剪枝方法对模型性能的影响提供了全方位的验证平台。

实验结果显示，VScan能够在几乎不降低准确率的前提下，有效减少视觉Token数量，显著缩短推理时间，展现出优于现有方法的综合性能。

具体而言，首先将VScan应用于 LLaVA-1.5-7B 模型，在 9 个图像理解任务上进行了系统评测。实验中，我们分别设置了平均保留 192、128 和 64 个视觉Token的方案，对应剪枝率高达 66.7%、77.8% 和 88.9%，远低于模型原始的576个Token输入。

即使在如此高的压缩率下，VScan依然表现出令人惊讶的稳定性：保留 192 和 128 个 Token 时，模型的平均准确率仅下降了 1.0% 和 1.2%，几乎实现了“零损剪枝”；而当我们将Token数进一步压缩至仅剩 64 个时，模型性能也仅下降了 3.3%，仍大幅领先第二名方法 VisionZip 4个百分点，充分验证了我们提出的两阶段剪枝策略在高压缩场景下的鲁棒性与泛化能力。

我们进一步将对比范围扩展至更具挑战性的视觉指代定位任务（Referring Grounding），并在 RefCOCO 系列数据集上使用Qwen2.5-VL-7B评估各方法的性能。如表所示，相较于图像问答任务，这类任务对视觉细节保留提出了更高要求——模型不仅要“看懂图”，更要“指出来”。

在这种对空间信息极度敏感的任务中，剪枝策略的鲁棒性面临严峻考验。以 75% 的Token剪枝率为例，FastV 和 PyramidDrop 的性能几乎“腰斩”，准确率下降接近一半。而在同等压缩比例下，VScan依然保持了高达 80.7% 的原始性能，在极限削减计算量的同时，依旧能够完成精准定位任务。

最后在POPE基准测试集上评估了VScan在真实推理场景中的实际加速效果。

在 LLaVA-1.5-7B 模型上，当视觉Token压缩至仅保留11%时，整体推理效率提升了 1.37 倍，其中预填阶段（pre-filling）加速更为显著，达到了 1.77 倍。与此同时，模型性能几乎没有下降，仅降低了 0.9%，充分展现了VScan高压缩比下的实用性与鲁棒性。

在更高分辨率、更大输入量的LLaVA-NeXT-7B 上，VScan的加速效果更加明显：整体推理提速 2.05 倍，预填阶段提速更是高达2.91倍。此外，VScan还能显著压缩 KV Cache 存储开销，对显存受限的部署环境尤为友好。

值得一提的是，VScan原生支持FlashAttention等高效注意力机制，在此基础上还可进一步提升运行速度。例如，在保留率仅为11%的设置下，将LLaVA-NeXT-7B 的推理时间进一步从488秒压缩到473秒，叠加加速效果显著。

更多实验结果与细节分析，请访问论文原文。

总结

总的来说，VScan通过在视觉编码和语言解码两端协同剪枝，有效遏制了视觉 Token 爆炸带来的算力负担：

一方面，利用全局-局部双扫描机制精准保留语义核心与细粒度信息；

另一方面，在多模态交互最活跃的中间层再次剔除与文本无关的冗余 Token，从而在高压缩率下仍保持优异性能。

大规模实验表明，VScan在多种 LVLM 与 16 项基准任务上均实现了显著的推理加速（最高 2.9×）和显存节约，同时准确率降幅控制在 1–3% 以内。得益于无需再训练、原生兼容 FlashAttention 及 KV Cache 压缩，VScan具备良好的工程适配性，可即插即用地部署于云端和边缘多模态应用。

完整代码与更多实验结果已开源，研究团队表示，期待社区进一步验证和拓展这一高效剪枝范式。

论文链接：https://arxiv.org/abs/2505.22654
代码链接: https://github.com/Tencent/SelfEvolvingAgent/tree/main/VScan

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

🌟 点亮星标 🌟

科技前沿进展每日见

（文：量子位）

2025 年 11 月
一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

VScan团队 投稿量子位 | 公众号 QbitAI