多模态推理新思路:D2I框架如何让模型“深思熟虑”又“直觉敏锐”?
本文介绍了一种名为 Deliberate-to-Intuitive (D2I) 的推理框架,旨在提升多模态大型语言模型(MLLMs)在复杂推理任务中的表现。通过在训练阶段采用深度推理策略,并在测试阶段允许模型自由生成答案,显著提升了多模态模型的推理能力,同时保持了训练的高效性和可扩展性。
本文介绍了一种名为 Deliberate-to-Intuitive (D2I) 的推理框架,旨在提升多模态大型语言模型(MLLMs)在复杂推理任务中的表现。通过在训练阶段采用深度推理策略,并在测试阶段允许模型自由生成答案,显著提升了多模态模型的推理能力,同时保持了训练的高效性和可扩展性。
MLNLP社区介绍其论文《PERK: Long-Context Reasoning as Parameter-Efficient Test-Time Learning》,提出了一种通过轻量级适配器在测试时学习长文本上下文的方法,显著降低了训练时的内存需求并提高了长文本推理性能。
DreamPRM 是加州大学圣地亚哥分校团队开发的一种方法,它在数学推理测评榜上排名第一。通过双层优化框架解决多模态大语言模型的数据质量不均衡问题,显著提升了其数学推理能力。
飞书在上海举办了2025年未来无限大会,发布了多款AI产品如知识问答、AI会议等。其中,知识问答可从940万篇文档中快速检索信息;AI会议支持声纹识别,实现准确的会中总结和实时显示;多维表格单表容量提升至1000万行数据,并新增应用构建功能和透视表分析能力。
近日,上海交通大学人工智能研究院晏轶超副教授联合蚂蚁集团的研究团队提出Skip-Vision框架,该框架通过训练阶段的Skip-FFN和推理阶段的Skip KV-Cache机制减少视觉Token的冗余计算与保留关键信息,实现多模态模型在精度和效率上的双重优化。
近日,上海交通大学人工智能研究院晏轶超副教授联合蚂蚁集团的研究团队提出Skip-Vision框架,无需额外预训练或重新训练大模型,在SFT流程中插入即可加速视觉-语言模型。该框架通过跳过冗余视觉Token和使用Summary Token机制在保留理解能力的同时显著降低计算开销和延迟。
文章介绍了科研过程中的方法和技巧,强调了实践的重要性超过单纯阅读文献。它推荐了一门由顶级学术会议主席讲授的系统课程,涵盖选题、实验设计等多个环节,帮助新手快速提升论文发表能力。