打破多模态数学推理瓶颈:港中文MMLab发布MINT-CoT,将细粒度视觉推理链引入数学领域

港中文 MMLab 提出的新方法 MINT-CoT,通过引入‘视觉交错思维链’实现细粒度视觉与文本推理融合,在多个基准数据集上刷新 SOTA,显著提升多模态大模型在数学视觉任务中的表现。

CVPR 2025 最佳论文|Meta与牛津大学推出VGGT,一站式Transformer开创高效3D视觉新范式

VGGT 是一种基于纯前馈 Transformer 架构的通用 3D 视觉模型,能够在单张或多张图像中直接预测相机参数、深度图和点云等几何信息。该模型在多个任务中的性能显著超越传统优化方法,并且推理速度达到秒级。