多模态推理新思路:D2I框架如何让模型“深思熟虑”又“直觉敏锐”?

本文介绍了一种名为 Deliberate-to-Intuitive (D2I) 的推理框架,旨在提升多模态大型语言模型(MLLMs)在复杂推理任务中的表现。通过在训练阶段采用深度推理策略,并在测试阶段允许模型自由生成答案,显著提升了多模态模型的推理能力,同时保持了训练的高效性和可扩展性。

PERK:长文本推理的“加速器”,效率与性能双提升

MLNLP社区介绍其论文《PERK: Long-Context Reasoning as Parameter-Efficient Test-Time Learning》,提出了一种通过轻量级适配器在测试时学习长文本上下文的方法,显著降低了训练时的内存需求并提高了长文本推理性能。

告别数据「噪音」,UCSD大模型推理新方法DreamPRM充当「信号放大器」,登顶MathVista测评榜

DreamPRM 是加州大学圣地亚哥分校团队开发的一种方法,它在数学推理测评榜上排名第一。通过双层优化框架解决多模态大语言模型的数据质量不均衡问题,显著提升了其数学推理能力。

我们用飞书开了个选题会,一下进入现代化办公,编辑部直呼:真香

飞书在上海举办了2025年未来无限大会,发布了多款AI产品如知识问答、AI会议等。其中,知识问答可从940万篇文档中快速检索信息;AI会议支持声纹识别,实现准确的会中总结和实时显示;多维表格单表容量提升至1000万行数据,并新增应用构建功能和透视表分析能力。

ICCV’25 视觉Token跳起来!上交大×蚂蚁联手推出多模态通用加速框架

近日,上海交通大学人工智能研究院晏轶超副教授联合蚂蚁集团的研究团队提出Skip-Vision框架,该框架通过训练阶段的Skip-FFN和推理阶段的Skip KV-Cache机制减少视觉Token的冗余计算与保留关键信息,实现多模态模型在精度和效率上的双重优化。

ICCV 2025 视觉Token跳起来!上交大×蚂蚁联手推出多模态通用加速框架

近日,上海交通大学人工智能研究院晏轶超副教授联合蚂蚁集团的研究团队提出Skip-Vision框架,无需额外预训练或重新训练大模型,在SFT流程中插入即可加速视觉-语言模型。该框架通过跳过冗余视觉Token和使用Summary Token机制在保留理解能力的同时显著降低计算开销和延迟。