论文链接:
在当今人工智能领域,大语言模型(LLMs)如 OpenAI 的 o1 模型在推理能力方面取得了显著进展。这些模型通过扩展推理过程,展现了其在复杂任务中的潜力,尤其是在处理语言和逻辑推理时表现优异。
然而,尽管在语言处理领域取得了优异的成绩,当前的视觉语言模型(VLMs)在复杂视觉问答任务中却常常遇到困难。这些模型通常倾向于采用直接预测的方法,即在接收到问题后立即给出简短的回答。这种方法的主要局限在于缺乏系统化的推理过程,使得它们在需要进行逻辑分析的任务中表现不佳。
对于推理能力的改进,一些研究采用了链式思维(Chain-of-Thought, CoT)提示,通过分步引导模型进行推理,显著提升了问答能力。然而,即便是在这样的引导下,许多 VLM 仍然会在推理过程中犯错或产生虚幻的输出。
在这一背景下,LLaVA-o1 应运而生。该模型旨在允许模型在推理时采用更系统和结构化的方式。LLaVA-o1 通过引入分阶段的推理框架,使得模型能够在处理视觉问题时,按照总结、说明、推理和结论四个阶段逐步进行,从而提高推理的准确性和一致性。
由此可见,LLaVA-o1 的发展不仅是对现有视觉语言模型局限性的回应,更是为实现更复杂和深入的推理能力奠定了基础。

相关工作
在当前的研究中,大语言模型(LLMs)赋予了计算机在推理能力上重大的发展。特别是,它们在视觉推理与语言理解的结合方面显示出了强大的潜力。然而,尽管视觉语言模型(VLMs)在多个任务中取得了一定的成绩,但在处理复杂视觉问答任务时仍面临许多挑战。
为此,研究者们对现有的视觉推理方法以及大语言模型中链式思维(CoT)推理的应用进行了深入的探索。
现有的视觉推理方法主要采用神经符号的方式,该方式通过显式建模视觉推理过程来提高模型的推理能力。随着大型语言模型的快速发展,视觉语言模型开始利用这些模型的高级推理能力来解析视觉任务。
这些方法在视觉编码策略的优化上下了不少功夫,目标是生成认知导向的视觉标记。同时,一些 VLMs 将语言模型视为决策代理,这种方法通过调动各种特定任务的视觉模块来提升在复杂视觉任务中的推理能力。此外,语言模型的指令学习技术(包括提示调优、上下文学习和监督微调)也提升了视觉推理的能力。
在大语言模型的推理过程中,链式思维提示(CoT prompting)能够为模型在面临困难问题时提供逐步的推理轨迹。例如,CoT prompting 会将问题分解为一组推理步骤,并建立一条链来引导模型逐步生成复杂问题的结果。
提出的方法
-
总结阶段:在这一阶段,LLaVA-o1 提供问题的高层次概述,明确模型将要处理的主要方面。这一阶段帮助模型理顺思路,为后续的推理奠定基础。 -
说明阶段:如果提供了图像,模型会在此阶段简要描述与问题相关的视觉元素,帮助理解多模态输入。这一过程对信息的整合起到关键作用。 -
推理阶段:在这一阶段,LLaVA-o1 进行结构化的逻辑推理,以得出初步答案。该阶段的重点在于全面考虑问题,确保推理过程的严谨性。 -
结论阶段:在最后阶段,模型综合前面的推理结果,给出最终的答案。此阶段的输出会根据用户需求的不同而调整,例如用户请求简短回答时,结论将会简洁;若需详细解释,则结论将提供全面响应。
-
<SUMMARY> ... </SUMMARY>
-
<CAPTION> ... </CAPTION>
-
<REASONING> ... </REASONING>
-
<CONCLUSION> ... </CONCLUSION>
这些标签对应于总结、说明、推理和结论的响应方式,确保整个推理过程的条理清晰。
3.2 数据准备与模型训练
图 3 展示了生成 LLaVA-o1-100k 数据集的流程。

▲ 生成LLaVA-o1-100k数据集的流程
3.3 模型训练
LLaVA-o1-100k 数据集将用于对任何现有模型进行监督微调(SFT),以增强其推理能力。
4.1 实验设计
作者选择了六个广泛使用并具有挑战性的基准进行实验:MMStar、MMBench V1.1、MMVet、MathVista、AI2D 和 HallusionBench。这些基准的设计目的在于评估模型在视觉问答、数学推理和科学推理方面的能力。
特别是,MMStar、MMBench 和 MMVet 主要评估模型的整体视觉问答能力;而 MathVista 和 AI2D 则关注模型在数学和科学推理中的表现;HallusionBench 则专注于模型处理语言幻觉和视觉幻觉的能力。所有实验均使用 VLMEvalKit 进行,以确保公平性和可重复性。
4.2 基准结果
通过对实验结果的分析,作者发现 LLaVA-o1 在使用 100k 数据的情况下,展现出了显著的性能提升。
4.3 模型对比
4.4 表格与图形
作者在结果部分中包含了一些关键表格和图表以视数据支持:表 2 展示了不同模型在各基准测试上的表现比较。该表详细列出了 LLaVA-o1 在多个任务中的具体得分与整体相对提升。

5.1 阶段级束搜索的有效性
在推理过程中,LLaVA-o1 的设计采用了阶段级束搜索方法,该方法利用模型的结构化输出,能够有效地管理推理过程。通过对每个推理阶段的输出进行评估,该方法在质量控制和计算效率之间取得了良好的平衡,在复杂推理任务中实现了更高的推理准确率,而不会产生显著的计算开销。
这一发现表明,阶段级束搜索是一种有效且强大的推理时扩展策略。具体过程如下:
-
为解决方案的第一个阶段采样 (N) 个响应; -
随机选择 2 个响应,并让模型判断哪个更好,保留更好的响应; -
重复步骤 2-4 (N-1) 次,直至所有阶段处理完毕。
5.2 与基线方法的比较
本节还将阶段级束搜索与基线推理扩展方法进行比较,以评估其相对性能。评估的基准包括 MMVet,实验设定与之前所用相同,我们确保在可比的计算条件下进行比较。将阶段级束搜索与最佳 N 个和句子级束搜索进行对比,结果显示阶段级束搜索能够在相同的计算需求下获取更好的结果。
-
最佳 N 个方法的平均提升仅为 0.6%。 -
与之相对,句子级束搜索的性能下降达 1.9%。 -
而阶段级束搜索提升了 2.6%,突显了其在处理复杂开放式问题时的优势。
5.3 随着推理时计算量增加的趋势
为更好地展示 LLaVA-o1 在推理时的可扩展性,研究者对不同束大小的阶段级束搜索进行了评估([6])。通过在 MMVet 基准上测试生成 1(无推理时扩展)、2、3 和 4 个候选响应的性能,结果表明,随着候选响应数量的增加,模型的性能持续提升,进一步确认了阶段级束搜索方法的可扩展性。
总结来看,LLaVA-o1 通过阶段级束搜索展示了其出色的推理能力,适应于在复杂推理任务中的高效应用。这种方法不仅提升了模型的性能,而且为未来的多模态推理研究提供了新的思路和可能性。
在本研究中,LLaVA-o1 被提出为一种新型视觉语言模型,具备结构化、分步推理的能力。通过引入四个明显的阶段——总结、说明、推理和结论,LLaVA-o1 实现了系统化的推理过程。这种模型不仅在处理复杂的视觉问答任务时表现出色,还在推理能力上显示出了显著的提升。
未来的研究方向可从以下几个方面进行拓展:
-
结合外部验证器的研究:为了增强模型的推理能力,未来可考虑结合外部验证器,以便在推理过程中引入额外的信息源,从而提高准确率和鲁棒性。
-
强化学习的应用:探索将强化学习技术与结构化推理模型结合的可能性,以进一步提升模型在推理任务中的表现,特别是在处理更复杂的任务场景中。
更多阅读

#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
(文:PaperWeekly)