北大、清华等提出LLaVA-o1，视觉语言模型中的o1来了！

论文标题：

LLaVA-o1: Let Vision Language Models Reason Step-by-Step

论文链接：

https://arxiv.org/abs/2411.10440

引言

在当今人工智能领域，大语言模型（LLMs）如 OpenAI 的 o1 模型在推理能力方面取得了显著进展。这些模型通过扩展推理过程，展现了其在复杂任务中的潜力，尤其是在处理语言和逻辑推理时表现优异。

然而，尽管在语言处理领域取得了优异的成绩，当前的视觉语言模型（VLMs）在复杂视觉问答任务中却常常遇到困难。这些模型通常倾向于采用直接预测的方法，即在接收到问题后立即给出简短的回答。这种方法的主要局限在于缺乏系统化的推理过程，使得它们在需要进行逻辑分析的任务中表现不佳。

对于推理能力的改进，一些研究采用了链式思维（Chain-of-Thought, CoT）提示，通过分步引导模型进行推理，显著提升了问答能力。然而，即便是在这样的引导下，许多 VLM 仍然会在推理过程中犯错或产生虚幻的输出。

在这一背景下，LLaVA-o1 应运而生。该模型旨在允许模型在推理时采用更系统和结构化的方式。LLaVA-o1 通过引入分阶段的推理框架，使得模型能够在处理视觉问题时，按照总结、说明、推理和结论四个阶段逐步进行，从而提高推理的准确性和一致性。

由此可见，LLaVA-o1 的发展不仅是对现有视觉语言模型局限性的回应，更是为实现更复杂和深入的推理能力奠定了基础。

通过构造一个新的数据集和采用高效的推理机制，LLaVA-o1 为多模态推理的研究和应用开辟了新的方向。同时，这一模型也揭示了在未来研究中，如何进一步利用结构化推理模型，以增强模型的整体表现和适应性。

相关工作

在当前的研究中，大语言模型（LLMs）赋予了计算机在推理能力上重大的发展。特别是，它们在视觉推理与语言理解的结合方面显示出了强大的潜力。然而，尽管视觉语言模型（VLMs）在多个任务中取得了一定的成绩，但在处理复杂视觉问答任务时仍面临许多挑战。

为此，研究者们对现有的视觉推理方法以及大语言模型中链式思维（CoT）推理的应用进行了深入的探索。

现有的视觉推理方法主要采用神经符号的方式，该方式通过显式建模视觉推理过程来提高模型的推理能力。随着大型语言模型的快速发展，视觉语言模型开始利用这些模型的高级推理能力来解析视觉任务。

这些方法在视觉编码策略的优化上下了不少功夫，目标是生成认知导向的视觉标记。同时，一些 VLMs 将语言模型视为决策代理，这种方法通过调动各种特定任务的视觉模块来提升在复杂视觉任务中的推理能力。此外，语言模型的指令学习技术（包括提示调优、上下文学习和监督微调）也提升了视觉推理的能力。

在大语言模型的推理过程中，链式思维提示（CoT prompting）能够为模型在面临困难问题时提供逐步的推理轨迹。例如，CoT prompting 会将问题分解为一组推理步骤，并建立一条链来引导模型逐步生成复杂问题的结果。

研究结果表明，CoT 提示显著改善了 LLaVA 模型在推理和解释能力上的表现，尤其是在常识推理和逻辑推理等方面。

同时，推理时的扩展方法也被广泛研究，其中主要的方法可以分为两类：依赖外部验证器的选择方法和不依赖外部验证器的方法。

尽管依赖外部验证器的选择方法在普遍方法中也可以使用，但不依赖于外部验证器的推理扩展方法主要包括多数投票、最佳 N 个搜索和句子级束搜索等。这些方法在一定程度上提升了推理能力，但仍存在各自的局限性。

综上所述，虽然现有研究在视觉推理、大语言模型链式思维和推理时的扩展方法方面取得了一些进展，但这些方法在提升推理能力方面仍存在明显的不足，从而为 LLaVA-o1 模型的发展和设计提供了理论支持。

提出的方法

LLaVA-o1 模型的设计旨在通过分步推理过程显著提升视觉语言模型的推理能力。该模型的独特之处在于其将答案生成过程分解为四个结构化的推理阶段：总结、说明、推理和结论。以下是每个阶段的详细介绍及其对整体推理过程的贡献。

3.1 推理阶段

LLaVA-o1 通过分步的推理阶段来进行系统推理，这些阶段分别是：

总结阶段：在这一阶段，LLaVA-o1 提供问题的高层次概述，明确模型将要处理的主要方面。这一阶段帮助模型理顺思路，为后续的推理奠定基础。
说明阶段：如果提供了图像，模型会在此阶段简要描述与问题相关的视觉元素，帮助理解多模态输入。这一过程对信息的整合起到关键作用。
推理阶段：在这一阶段，LLaVA-o1 进行结构化的逻辑推理，以得出初步答案。该阶段的重点在于全面考虑问题，确保推理过程的严谨性。
结论阶段：在最后阶段，模型综合前面的推理结果，给出最终的答案。此阶段的输出会根据用户需求的不同而调整，例如用户请求简短回答时，结论将会简洁；若需详细解释，则结论将提供全面响应。

每个阶段的开启由模型自主决定，借助特定标签使模型能够有效管理其推理过程。LLaVA-o1 使用以下一对特殊标签来标记每个阶段的开始和结束：

<SUMMARY> ... </SUMMARY>
<CAPTION> ... </CAPTION>
<REASONING> ... </REASONING>
<CONCLUSION> ... </CONCLUSION>

这些标签对应于总结、说明、推理和结论的响应方式，确保整个推理过程的条理清晰。

3.2 数据准备与模型训练

现有的视觉问答（VQA）数据集往往缺乏详细的推理过程，因此研究人员构建了新的数据集——LLaVA-o1-100k，结合了多个广泛使用的 VQA 数据集。

这一数据集包含约 99k 个图像问答对，每个问答对可能包括一轮或多轮问题。在生成这一数据集的过程中，研究团队通过利用 GPT-4o，分阶段生成详细的推理过程，并进行筛选以确保输出质量。

图 3 展示了生成 LLaVA-o1-100k 数据集的流程。

3.3 模型训练

LLaVA-o1-100k 数据集将用于对任何现有模型进行监督微调（SFT），以增强其推理能力。

在本工作中，研究团队选择 Llama-3.2-11B-Vision-Instruct 作为基础模型，并利用 LLaVA-o1-100k 数据集对其进行全参数微调，训练过程在 8 个H100 GPU 的单节点上进行。这种训练方法使模型能够吸收和应用多阶段推理的价值，从而提升其在后续推理任务中的表现。

实验与结果

在这一部分中，作者详细介绍了针对 LLaVA-o1 模型在多个多模态推理基准上的实验设计与结果，旨在比较 LLaVA-o1 与基础模型 Llama-3.2-11B-Vision-Instruct 以及其他现有模型的性能。

4.1 实验设计

作者选择了六个广泛使用并具有挑战性的基准进行实验：MMStar、MMBench V1.1、MMVet、MathVista、AI2D 和 HallusionBench。这些基准的设计目的在于评估模型在视觉问答、数学推理和科学推理方面的能力。

特别是，MMStar、MMBench 和 MMVet 主要评估模型的整体视觉问答能力；而 MathVista 和 AI2D 则关注模型在数学和科学推理中的表现；HallusionBench 则专注于模型处理语言幻觉和视觉幻觉的能力。所有实验均使用 VLMEvalKit 进行，以确保公平性和可重复性。

4.2 基准结果

通过对实验结果的分析，作者发现 LLaVA-o1 在使用 100k 数据的情况下，展现出了显著的性能提升。

根据表 2 的数据显示，相较于基础模型 Llama-3.2-11B-Vision-Instruct，LLaVA-o1 在通用视觉问答、数学推理、科学视觉问答和幻觉控制任务中均取得了显著的进步，平均基准分数提升达 6.9%。这一结果有力地验证了LLaVA-o1的方法的有效性，尤其是在需要复杂推理的任务中。

4.3 模型对比

在实验中，LLaVA-o1 与一些来自不同来源的现有模型进行了性能对比。实验结果显示，LLaVA-o1 consistently surpasses many open-source models of similar or even larger sizes，这包括了内部基准测试中表现优异的多个模型。此外，LLaVA-o1 连续超过了某些闭源模型，如 GPT-4o-mini 和 Gemini-1.5-pro，进一步说明了其在复杂推理任务中结构化推理方法的优势。

4.4 表格与图形

作者在结果部分中包含了一些关键表格和图表以视数据支持：表 2 展示了不同模型在各基准测试上的表现比较。该表详细列出了 LLaVA-o1 在多个任务中的具体得分与整体相对提升。

通过这些结果，能够清晰看到 LLaVA-o1 在推理能力和表现上所取得的重要突破，为未来的研究和模型改进提供了理论基础与实验数据支持。

推理时的扩展进展

本节探讨了 LLaVA-o1 在推理时的扩展方法，特别是阶段级束搜索（Stage-level Beam Search）的应用。将 LLaVA-o1 与传统的方法（如最佳 N 个和句子级束搜索）进行比较，以验证其在推理过程中的提升能力。

5.1 阶段级束搜索的有效性

在推理过程中，LLaVA-o1 的设计采用了阶段级束搜索方法，该方法利用模型的结构化输出，能够有效地管理推理过程。通过对每个推理阶段的输出进行评估，该方法在质量控制和计算效率之间取得了良好的平衡，在复杂推理任务中实现了更高的推理准确率，而不会产生显著的计算开销。

这一发现表明，阶段级束搜索是一种有效且强大的推理时扩展策略。具体过程如下：

为解决方案的第一个阶段采样 (N) 个响应；
随机选择 2 个响应，并让模型判断哪个更好，保留更好的响应；
重复步骤 2-4 (N-1) 次，直至所有阶段处理完毕。

通过采用上述方法，LLaVA-o1 在保持推理质量的同时，提升了响应的准确性，展示出其在推理时的潜在优势。

5.2 与基线方法的比较

本节还将阶段级束搜索与基线推理扩展方法进行比较，以评估其相对性能。评估的基准包括 MMVet，实验设定与之前所用相同，我们确保在可比的计算条件下进行比较。将阶段级束搜索与最佳 N 个和句子级束搜索进行对比，结果显示阶段级束搜索能够在相同的计算需求下获取更好的结果。

表 5 展示了各种方法在推理时的相对性能。结果表明：

最佳 N 个方法的平均提升仅为 0.6%。
与之相对，句子级束搜索的性能下降达 1.9%。
而阶段级束搜索提升了 2.6%，突显了其在处理复杂开放式问题时的优势。

5.3 随着推理时计算量增加的趋势

为更好地展示 LLaVA-o1 在推理时的可扩展性，研究者对不同束大小的阶段级束搜索进行了评估（[6]）。通过在 MMVet 基准上测试生成 1（无推理时扩展）、2、3 和 4 个候选响应的性能，结果表明，随着候选响应数量的增加，模型的性能持续提升，进一步确认了阶段级束搜索方法的可扩展性。

总结来看，LLaVA-o1 通过阶段级束搜索展示了其出色的推理能力，适应于在复杂推理任务中的高效应用。这种方法不仅提升了模型的性能，而且为未来的多模态推理研究提供了新的思路和可能性。

结论与未来工作

在本研究中，LLaVA-o1 被提出为一种新型视觉语言模型，具备结构化、分步推理的能力。通过引入四个明显的阶段——总结、说明、推理和结论，LLaVA-o1 实现了系统化的推理过程。这种模型不仅在处理复杂的视觉问答任务时表现出色，还在推理能力上显示出了显著的提升。

LLaVA-o1 的贡献主要体现在以下几个方面：

1. 多阶段推理框架：LLaVA-o1 通过清晰的阶段划分，使模型能够在不同的推理阶段进行独立的思考和推理，从而在理解和生成答案的过程中保持高度的逻辑性和一致性。

2. 新的数据集：构建了 LLaVA-O1-100k 数据集，该数据集提供了详细的推理标注，帮助模型在训练中获得结构化的响应能力。这一数据集的创建为训练工程师提供了便利，为后续的研究奠定了基础。

3. 推理时的扩展方法：引入了阶段级束搜索的方法，显著提高了推理的准确性和效率。这种创新的方法不同于传统的推理扩展手段，为 LLaVA-o1 的推理能力带来了新的提升。

未来的研究方向可从以下几个方面进行拓展：

结合外部验证器的研究：为了增强模型的推理能力，未来可考虑结合外部验证器，以便在推理过程中引入额外的信息源，从而提高准确率和鲁棒性。
强化学习的应用：探索将强化学习技术与结构化推理模型结合的可能性，以进一步提升模型在推理任务中的表现，特别是在处理更复杂的任务场景中。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

（文：PaperWeekly）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

3.2 数据准备与模型训练

3.3 模型训练

4.1 实验设计

4.2 基准结果

发表评论 取消回复

发表评论取消回复