编辑:刘欣
在人工智能领域,语言模型的发展日新月异,推理能力作为语言模型的核心竞争力之一,一直是研究的焦点,许多的 AI 前沿人才对 AI 推理的效率进行研究。
高昂的计算成本和复杂的硬件需求一直是制约 AI 推理技术广泛应用的瓶颈。
你是否想过,如何在资源有限的情况下,让语言模型拥有强大的推理能力呢?
近日,南加州大学的团队发表了一篇名为 「Tina: Tiny Reasoning Models via LoRA」的论文,给出了令人眼前一亮的答案。
SophontAI 的 CEO Tanishq Abraham 博士还在 X 上转推了这篇论文。

-
Notion 博客: https://shangshangwang.notion.site/tina
-
代码仓库: https://github.com/shangshang-wang/Tina
-
训练日志: https://wandb.ai/upup-ashton-wang-usc/Tina
-
模型权重及检查点: https://huggingface.co/Tina-Yi
-
论文地址:https://arxiv.org/abs/2504.15777
团队将「小型」 模型架构以及通过基于 LoRA 的强化学习这两个要素整合后发布了 Tina(通过 LoRA 的微型推理模型)系列模型,该系列模型以极低的成本实现了出色的推理性能。
Tina(通过 LoRA 的微型推理模型)系列模型不仅拥有高效强化学习推理的惊人效果,还可以快速推理格式适应假说、使强化学习推理更具普适性。团队提供了一种可复现且极具成本效益的方法,使更多人能够参与到强化学习技术的探索中,而无需大量计算资源。
值得注意的是,复现表现最佳的 Tina 模型检查点的成本仅为 9 美元,而从头开始复现研究的所有实验以及本文中展示的全部内容的成本为 526 美元。

在当前人工智能技术飞速发展的背景下,Tina 模型的出现无疑为行业带来了一股清新的空气。它不仅展示了在有限资源下实现高效推理的可能性,也为未来的 AI 应用开发提供了新的思路和方向。
接下来,让我们深入了解 Tina 模型的创新之处及其背后的研究细节。
Tina
基于低秩自适应(LoRA)的微型推理模型
Tina 通过在强化学习(采用类似 GRPO 的算法)过程中运用低秩自适应(LoRA)技术,对 DeepSeek-R1-Distill-Qwen-1.5B 基础模型进行后训练而创建的一系列模型。「Tiny」(微型)这一名称体现了在整个框架中对极简主义和高效性的刻意追求。这不仅包括微型的基础模型架构、LoRA 实现的微小参数更新,还延伸到极小的整体资源占用。通过利用可获取的开源数据集和代码库构建高效的训练流程,并仅需极少的硬件和预算资源,团队实现了最小化的资源占用。
训练流程:基线模型与数据集
为便于进行有意义的比较和精确的消融实验,tuandui 使用公开可用的推理模型的数据集和设置,通过强化学习对 Tina 模型进行后训练。所有 Tina 模型和基线模型均采用 DeepSeek-R1-Distill-Qwen-1.5B 作为基础模型检查点,并使用其默认的开源权重。
-
STILL-3-1.5B-preview 是一个经过深思熟虑的推理模型,它通过对精心整理的包含 3.3 万个推理轨迹的数据集进行迭代强化学习而开发出来。这些数据源自数学竞赛,涵盖了 MATH、NuminaMathCoT 和 AIME(1983 – 2023)中的问题。Tina-STILL-3-1.5B-preview 使用相同的数据集和奖励流程。
-
DeepScaleR-1.5B-Preview 专注于通过强化学习进行长上下文数学推理,它在大约 4 万个从 AIME、AMC、OMNI-MATH 和 STILL 数据集提取的问题 – 答案对上进行训练。Tina-DeepScaleR-1.5B-Preview 使用该数据集并沿用其奖励设计。
-
Open-RS1/2/3 是 Open-RS 项目中探索 15 亿参数模型推理性能的三个模型,均通过强化学习训练。所有 Open-RS 模型都在从 s1(即 Open-S1)和 DeepScaleR(即 Open-DeepScaleR)数据集进一步精选的小型高质量数据集上进行训练。Tina 模型(Tina-Open-RS1/2/3)复制了这些设置,使用相同的数据分割和奖励框架。
训练设置:基础设施与预算
训练代码库:团队的实现基于 OpenR1,这是对 DeepSeek-R1 的完全开源复现,它结合了 Accelerate 和 Trl 库以及 DeepSpeed ZeRO 优化。其目的是透明地复现和扩展用于提升语言模型推理能力的强化学习方法,尤其侧重于通过可验证的奖励信号使模型行为与面向推理的目标保持一致。团队的方法继承了其框架、训练工具和奖励接口。
训练超参数:团队从复现 OpenR1 和 OpenRS 的关键参数开始进行参数选择。对于本文中展示的所有实验,团队特意采用了这些研究中提供的默认或推荐超参数配置。在不同的实验运行中,这些设置基本保持不变。对于 Tina 的主要结果,每个任务仅调整奖励函数参数;对于消融研究,仅改变所研究的特定因素(例如学习率、LoRA 秩 /alpha 值、强化学习算法)。这种方法有意避免了针对特定设置进行高成本的超参数搜索过程,确保调优开销可忽略不计,并专注于基于 LoRA 的强化学习核心方法的有效性。
训练硬件:团队低成本方法的一个关键要素是尽量减少硬件需求。虽然像 GRPO 这样的分布式强化学习训练算法通常使用三个或更多 GPU 会更有优势(例如,专门用一个 GPU 运行 vLLM 等推理引擎以加快样本生成),但团队特意采用仅使用两个 NVIDIA L40S GPU 的最小化设置。为实现这一点,团队通过限制 vLLM 的 GPU 内存使用,将强化学习训练过程和 vLLM 放在相同的两个 GPU 上。训练本身通过两个 GPU 进行数据并行。虽然在两个 GPU 上同时运行推理和训练与使用专用推理 GPU 的设置相比,可能会延长实际训练时间,但它显著降低了硬件要求。
训练预算:团队使用的 NVIDIA L40S GPU 可通过商业云平台获取,根据撰写本文时观察到的价格,每 GPU 小时约 1 美元,包括 300GB 存储。团队基于 LoRA 的模型的强化学习训练过程非常高效,在这种硬件上,单个强化学习步骤通常在一分钟内即可完成。在本文六个推理基准测试套件中评估一个模型检查点平均需要约 1 个 L40S GPU 小时。为确保成本可控,团队最初为每次完整的实验运行设定了 100 美元的保守最大预算,涵盖从训练到评估以及其他杂项任务的所有阶段。如表 1 所示,团队的实际支出明显低于这个上限。

通过低秩自适应(LoRA)实现的高效强化学习推理效果
实验第一阶段:基线模型重新评估
在展示 Tina 模型的性能之前,与现有的最优推理模型进行公平可靠的比较至关重要。值得注意的是,文献中相关模型的性能分数往往源于使用不同框架(例如 verl、lighteval、lm-eval-harness)和不一致的推理设置(如不同的生成超参数或不同数量的 GPU)进行的评估。这些差异会显著影响报告的指标,造成潜在的不一致性,阻碍模型之间进行可靠的比较。
为了减少这些混杂因素的影响,在本文中,团队使用单一、一致的方法对关键基线模型进行了全面的重新评估。本文中报告的所有基线评估均使用集成了 vLLM 推理引擎的 lighteval 框架,以实现高效生成。为了与 OpenR1 等先前工作具有可比性,团队保持固定的硬件配置(两个 L40S GPU),并对所有评估的基线模型应用一组标准化的 vLLM 推理参数。所有分数均为零样本单次通过率(Pass@1)性能。这种一致的重新评估协议所产生的结果如表 2 所示。

特别地,团队在具有挑战性的六个基准测试中评估了 Tina 模型和基线模型的推理能力,这些基准测试主要聚焦于数学和科学推理:
-
AIME24/25 包含 30 道来自 2024/2025 年美国数学邀请赛的高中水平数学问题,涵盖代数、几何、数论和组合数学。每个问题都需要精确的多步推理。
-
AMC23 包括 2023 年美国数学竞赛中的 40 道问题,涵盖逻辑和符号操作任务。
-
MATH500 是一个包含 500 道竞赛数学问题的基准测试,这些问题来自各种来源,涵盖不同难度级别,通常需要多步推导和计算。
-
GPQA Diamond,以下简称 GPQA,由 198 道博士水平的科学问题组成,涵盖生物学、化学和物理学。每个问题都是选择题,有一些具有迷惑性的选项。
-
Minerva 包括 272 道定量推理问题,通常处于本科水平。这些问题涵盖多个 STEM 领域,包括物理学、生物学、化学和经济学,通常需要数学建模或计算步骤,例如根据反应数据计算酶动力学。
实验第二阶段:Tina 模型评估
下面展示 Tina 模型的核心评估结果。这些实验评估了通过基于 LoRA 的强化学习对 DeepSeek-R1-Distill-Qwen-1.5B 进行极少参数更新后的推理能力。表 3 中的结果表明,通过这种方式可以高效地实现显著的推理性能提升,使模型在资源受限的参数高效调优情况下,仍能与相关基线模型竞争,甚至超越它们。
表 3 总结了五个不同的 Tina 模型在六个推理任务中的性能:AIME24/25、AMC23、MATH500、GPQA 和 Minerva。对于每个 Tina 模型,团队报告了完成的训练程度(以 1 个预定义训练周期内的训练步骤百分比表示)以及在每个任务上获得的分数百分比。结果有力地证明了经济高效的基于 LoRA 的强化学习策略的有效性。
所有 Tina 模型都展现出显著的推理能力,平均分数在 48.16% 到 50.60% 之间。值得注意的是,几乎所有 Tina 模型的平均分数都明显超过了相应的基线模型,这表明通过高效的参数强化学习带来了显著的改进。Tina-Open-RS2 模型的平均性能最高,达到 50.60%。此外,这些出色的结果是在极短的训练时间内取得的,仅为完整训练周期的 19% 到 57%,凸显了 Tina 方法的效率和快速适应性。
这些发现有力地支持了我们的核心假设:通过有针对性地应用 LoRA 和强化学习,可以在小型语言模型中有效且经济地培养强大的推理能力。

实验第三阶段:Tina 消融变体实验
为了更好地理解在所提出的低成本框架中影响 Tina 模型性能和效率的因素,团队进行了一系列消融研究。这些研究系统地探究了关键设计选择和超参数的影响,包括基础训练数据集、LoRA 更新的学习率、LoRA 适配器的秩以及所采用的具体强化学习算法。在每项研究中,通常会改变一个因素,同时保持其他因素不变,这些因素通常基于主要实验或初步运行中确定的高性能配置。表 4 总结的结果为研究深入了解这种经济高效方法的稳健性和敏感性提供了有价值的见解。
训练数据集的影响:表 4 的第一部分突出了用于强化学习的数据集的影响。研究比较了七个不同的数据集,其规模差异很大(从约 1400 个到 9.4 万个样本不等)。引人注目的是,在仅有 7000 个示例的精简数据集上训练的 Tina-Open-RS 模型,获得了最高的平均分数(50.60%)。这一结果超过了在大得多的数据集上训练的模型,例如在 9.37 万个样本上训练的 Tina-OpenR1(平均分数为 49.26%)。这一观察结果有力地支持了团队 「微型」的核心前提,并反映出数据集的质量和多样性比数据规模更为重要的观点。
对学习率的敏感性:以 Tina-LIMR 配置为测试平台(表 4 的第二部分),团队评估了对学习率的敏感性。在测试的数值中,
的学习率为该设置带来了最优的平均性能(48.47%)。虽然性能差异并不显著,但这表明学习率的选择仍然是一个影响因素,尽管在未进行大量调优的情况下也能获得有效的结果。
LoRA 秩的影响:第三项消融研究探究了 LoRA 秩的影响,它直接控制可训练参数的数量。在 Tina-LIMR 设置上测试了秩为 4、8、16、32 和 64 的情况,团队观察到了相当高的稳健性。秩为 8、16 和 32 时都产生了不错的结果,平均分数集中在 47.89% 到 48.92% 之间。值得注意的是,在这次比较中,秩 16 达到了最高性能(48.92%),略优于秩 32(48.47%)。在极端情况下(秩 4 和 64),性能略有下降。这项研究验证了高参数效率的配置(如低秩 16 或 32)是有效的,进一步提高了 Tina 方法的成本效益和最小化开销。
强化学习算法的比较:最后使用 Tina-Open-RS3 设置(表 4 的最后一部分)比较了两种强化学习算法,GRPO 和 Dr.GRPO。两种算法都达到了相似的峰值平均性能水平(GRPO 为 49.45%,Dr.GRPO 为 49.53%)。然而,Dr.GRPO 在训练过程中达到最佳检查点的时间要早得多(占一个训练周期的 17%,而 GRPO 为 57%)。这表明在这种情况下,Dr.GRPO 在样本效率方面具有潜在优势,其损失计算中采用了不同的归一化方法,可能实现更快的收敛,并进一步减少训练时间和成本。

关于低秩自适应(LoRA)高效性的假设
快速格式适应
基于 LoRA 的强化学习:少即是多
为了理解为什么 LoRA 能够通过强化学习有效且高效地提升推理能力,研究分析了训练计算量与性能之间的关系,以及训练动态。如图 3 所示,绘制推理性能与近似训练浮点运算次数(FLOPs)的关系图,可明显看出全参数训练和基于 LoRA 的训练机制之间的差异。
首先,基于 LoRA 的 Tina 模型在推理得分上可与完全微调的基线模型相媲美,甚至在某些情况下更优,同时所需的训练浮点运算次数(在某些情况下)比基线模型低几个数量级。在 LoRA 模型中,增加训练计算量反而会对性能产生负面影响,这与全参数模型形成鲜明对比。这一观察结果凸显了「更少计算量可带来更高性能」 的现象。

这一发现支持了关于 LoRA 如何实现如此卓越效率的假设,这与 「学习结构 / 格式,保留知识」 的原则相关。团队认为,LoRA 在这种情况下表现出色是因为推理强化学习高度奖励模型以特定、可验证的格式或结构生成输出的能力(例如,逐步推理链)。LoRA 似乎能够通过极少的参数变化高效地学习这些结构和风格模式,因此所需的浮点运算次数极少。同时,由于 LoRA 仅修改极少部分的权重,它在很大程度上保留了基础模型的大量预训练知识。
因此,LoRA 有效地教会模型如何将其现有知识组织成有效的推理过程,而不是像大规模全参数更新那样,可能需要对概念或程序进行高成本的重新学习。假设这种对结构适应的关注使 Tina 能够以最小的计算投入实现高推理性能。
基于 LoRA 的强化学习中的阶段转变
通过分析训练日志,对基于 LoRA 的强化学习机制有了进一步的认识。如图 4 所示,在各种 Tina 模型的训练过程中,出现了一种明显的模式,该图展示了不同 Tina 模型运行时的准确率奖励、格式奖励和完成长度随训练步骤的变化情况。团队持续观察到,在大多数 Tina 模型中,与格式相关的指标(格式奖励,第二行;完成长度,第三行)在训练过程中存在一个阶段转变或转折点。在这个转变点附近(由绿色垂直虚线表示),格式奖励通常会达到峰值或出现不稳定,而完成长度往往会在可能反转趋势之前达到最小值。
值得注意的是,在准确率奖励图(第一行)中,这种在格式和长度指标上相对明显的转变通常并没有对应的明显转折点。在整个训练过程中,准确率奖励通常呈现出更平缓的波动或更缓慢的变化趋势,与格式转变没有明显的对应拐点。

另一个关键观察结果是最佳性能出现的时间:在留出的评估中产生最高推理准确率的最佳检查点,始终出现在格式指标观察到的阶段转变点之前或附近(由红色垂直虚线表示)。基于准确率和基于格式的指标之间的这种解耦表明,基于 LoRA 的强化学习过程迅速优化了模型遵循格式得分和长度约束所奖励的结构和风格元素的能力。随后的转变点可能表明这种结构优化达到饱和、变得不稳定,或者可能以其他方式(例如过度限制或扩展长度)开始损害生成质量。
在格式驱动的转变之前达到峰值推理准确率这一事实意味着,虽然学习正确的输出格式至关重要,并且通过 LoRA 可以高效实现,但仅进一步推动以格式为中心的优化并不一定能带来更好的推理效果,甚至可能有害。这进一步支持了研究假设,即 LoRA 主要通过学习有效推理所需的形式来高效地调整模型。
结论与局限性
研究团队提出 Tina 模型,以证明可以高效且有效地将推理能力融入语言模型。Tina 的主要贡献在于让更多人能够参与基于强化学习的推理模型开发。通过在 15 亿参数的基础模型上结合 LoRA 和强化学习,实现了与大得多的模型相媲美的推理性能,而这一切仅在约 9 美元的计算预算内完成。这一成果促使团队思考使这种极简主义方法成为可能的因素,以及它们未来可能的发展方向。
尽管取得了令人鼓舞的结果,但这项工作也存在一定的局限性:
-
基础模型规模:实验主要围绕 15 亿参数的模型展开。虽然展示了成本效益,但对于复杂的多步推理问题,这个「微型」 模型所能达到的绝对推理上限,自然可能低于更大的模型。
-
推理任务范围:评估主要集中在数学和形式逻辑推理基准测试(AIME、AMC、MATH、GPQA、Minerva)上。所学推理技能在其他领域(如编码)的有效性和可迁移性,还有待进一步研究。
-
超参数优化:有意采用已有的配置,尽量减少超参数调整成本。虽然这体现了方法的某种稳健性,但通过进一步调整超参数,特别是针对 LoRA、强化学习算法和目标推理任务之间的相互作用进行调整,可能会带来性能的进一步提升。
©
(文:机器之心)