首个无编码器的3D多模态大语言模型ENEL,7B参数即可媲美13B!

首次在3D多模态大语言模型中移除了编码器,让LLM直接处理3D编码任务。通过提出混合语义损失和分层几何聚合策略,首个无编码器的3D LMM ENEL表现出色,7B模型与ShapeLLM-13B相当,在多个任务上超过现有方法。

CVPR 2025 多视角视觉目标跟踪新突破!MITracker:高效融合多视角特征,解决遮挡与目标丢失问题!

MITracker提出了一种高效的多视角跟踪方法,通过融合多视角特征解决了传统单视角跟踪中的遮挡和目标丢失问题。该研究构建了大规模的多视角跟踪数据集MVTrack,并提出了类无关的多视角跟踪方案MITracker,在多个评估指标上达到了最先进的性能。

NTIRE 2025 首届跨域少样本目标检测挑战赛 (CD-FSOD) 正式启动!

首届跨域少样本物体检测挑战赛(CD-FSOD)由NTIRE2025举办,旨在提升小样本目标检测模型在不同领域数据上的泛化能力。大赛聚焦跨域场景下的少样本目标检测任务,提供多种验证集用于实验,并鼓励参赛者探索多样化的基础模型和训练策略。