腾讯混元团队提出MM-IQ:多模态大模型推理评估新基准

腾讯 Hunyuan 团队提出 MM-IQ 基准测试框架,旨在评估多模态模型的抽象推理和逻辑思维能力。该基准包含 8 种不同推理范式,涵盖 2,710 个精心策划的测试项目,涉及逻辑运算、数学推理等多样化的题目配置。

ICLR 2025 3D意图定位:AI仅凭人类意图就能完成三维空间的定位

该项目提出3D意图定位(3D-IG),旨在根据用户的意图在3D场景中检测目标物体,而非仅依赖明确的物体描述。通过引入动宾对齐、候选框匹配和级联自适应学习等技术,该方法显著提升了性能。

顶刊TPAMI 2025!北大、KAUST等提出可逆扩散模型赋能图像重建,代码已开源

本文提出了一种可逆扩散模型IDM,通过端到端训练框架和双层可逆网络设计显著提升图像重建性能与效率。在图像压缩感知重建任务中,相比其他方法,该模型在PSNR指标上提升了2dB,并将采样步数从100步减少至3步,推理速度提高了约15倍。