推理速度飙升5倍，苹果提出全新Multi-Token生成框架！

自回归语言模型受限于其固有的序列化特性，只能逐词（token）生成文本。这种范式严重拖慢了推理速度，也限制了并行能力；尤其在生成后期，当文本的方向和语义已经相当明确时，逐词输出显得尤为低效。

为此，Apple提出一种全新框架，充分挖掘原始自回归模型对未来词元的“先验知识”，通过多项技术的协同，实现一次性并行预测多个后续词元（Multi-Token）。

核心创新包括：

提出的MTP模型的组成部分

掩码token的使用：通过在输入序列末尾添加掩码token，模型被训练直接预测这些掩码token，从而实现多token预测。
门控LoRA模块：在微调过程中，只有LoRA参数和采样器头部参数被更新，原始解码器权重保持不变。这种门控机制确保了微调不会影响原始的下一个token预测（NTP）行为。
采样策略：通过训练一个采样器头部，将预测的token条件化在当前上下文和前面生成的token上，从而提高多token生成的连贯性。
推测性解码：通过比较标准自回归生成的token和多token预测生成的token，验证预测token的有效性。提出了线性解码和二次解码两种策略，其中二次解码策略保证了每个生成步骤都能产生固定数量的新推测token，从而维持一致的解码进度。

仅需在预训练模型上做监督微调，即可显著提速：代码与数学题生成速度提升近 5 倍，通用聊天与知识问答任务提升约 2.5 倍，且输出质量毫无损失。

Your LLM Knows the Future: Uncovering Its Multi-Token Prediction Potentialhttps://arxiv.org/pdf/2507.11851

（文：PaperAgent）