NeurIPS 2024|天津大学提出:面向模态缺失情形的提示学习方法

本文提出了一种新的提示学习方法,旨在解决多模态大模型在输入模态可能缺失时的问题。通过结合三种不同的提示向量策略(Correlated prompting, Dynamic prompting和Modal-common prompting),该方法能更有效地提升模型的鲁棒性和可扩展性,在多个数据集上验证了其有效性。

o1的风又吹到多模态,直接吹翻了GPT-4o-mini

开源项目LLaVA-o1展示了其在自主多阶段推理方面的优越性,超过了一些大型甚至封闭源代码的模型,在复杂任务中的性能显著提高。它包括总结、图像解释、逻辑推理和结论生成四个关键阶段,并采用了结构化推理框架和阶段性束搜索策略来增强其推理能力。