一篇最新高效 R1-like 大型推理模型技术综述

2025年8月8日19时作者 PaperAgent

1. 一分钟速览

问题：R1-style LRM（如 DeepSeek-R1、Kimi 1.5）在复杂任务上表现惊艳，却普遍存在 overthinking——推理链过长、冗余、重复，导致延迟 & 成本飙升。
贡献：首篇系统综述高效推理的 survey，提出 「单模型优化 vs 多模型协作」 双层分类框架，覆盖 100+ 最新方法，并给出 4 大前沿应用展望。

2. 背景：当“想太多”成为瓶颈

现象	案例	后果
对简单问题仍生成超长 CoT	“2+3=？”→ 20+ 步推理	延迟↑、成本↑、准确率↓
不自信循环	反复自我验证、否定	输出方差↑
安全隐患	长推理链暴露更多攻击面	越狱、提示注入↑

图 1：高效 R1-style LRM 方法分类与未来应用蓝图。

3. 方法全景：两条主线

论文将现有工作划分为 两大范式：

范式

目标

代表策略

关键思路

单模型优化

在一个模型内部“减支增效”

Early Exit / CoT 压缩 / 自适应推理 / RepE

提前停、剪枝、动态深度、潜空间操控

多模型协作

多个

模型“分工协作”

Long–Short 协作 / LLM Routing / 模型融合 / 投机解码

轻量模型打草稿，大模型把关

3.1 单模型优化：让模型“自省”

技术	子类	关键论文	一句话亮点
Early Exit	监控/生成控制/自适应	DEER	发现“aha”token 立即刹车
CoT 压缩	Token/Step/Chain 级	CTS	用参考模型给 token 打重要性分数
自适应推理	RL 奖励 / 模式切换 / 长度惩罚	Ada-R1	难度高→长链，简单题→直接答
RepE	潜向量操控	SEAL	注入“少想”向量，抑制冗余反射

3.2 多模型协作：打组合拳

协作模式	代表方法	工作流程	速记
Short-to-Long	SplitReason	轻模型先答，难题丢给大模型	“小模型主刀，大模型支援”
模型路由	RTR	为每个输入动态挑选最合适的模型（或模型组合）	路由
模型合并	TwT	把长、短模型的优势“蒸馏”或“融合”成一个新模型，兼顾性能与效率。	蒸馏、融合
投机解码	SpecReason	小模型一次写多步，大模型并行验证	“草稿+批改”

4. 未来 4 大应用方向

方向	痛点	高效化思路

（文：PaperAgent）

发表评论取消回复