极市干货
首个无编码器的3D多模态大语言模型ENEL,7B参数即可媲美13B!
首次在3D多模态大语言模型中移除了编码器,让LLM直接处理3D编码任务。通过提出混合语义损失和分层几何聚合策略,首个无编码器的3D LMM ENEL表现出色,7B模型与ShapeLLM-13B相当,在多个任务上超过现有方法。
DeepSeek R1与OpenAI模型文风相似度高达74.2%?新研究质疑DeepSeek训练数据
研究发现DeepSeek生成的74.2%文本风格与OpenAI模型相似,Copyleaks开发集成系统识别具体AI模型。结果显示DeepSeek与OpenAI模型有显著风格相似性。
CVPR 2025 多视角视觉目标跟踪新突破!MITracker:高效融合多视角特征,解决遮挡与目标丢失问题!
MITracker提出了一种高效的多视角跟踪方法,通过融合多视角特征解决了传统单视角跟踪中的遮挡和目标丢失问题。该研究构建了大规模的多视角跟踪数据集MVTrack,并提出了类无关的多视角跟踪方案MITracker,在多个评估指标上达到了最先进的性能。
NTIRE 2025 首届跨域少样本目标检测挑战赛 (CD-FSOD) 正式启动!
首届跨域少样本物体检测挑战赛(CD-FSOD)由NTIRE2025举办,旨在提升小样本目标检测模型在不同领域数据上的泛化能力。大赛聚焦跨域场景下的少样本目标检测任务,提供多种验证集用于实验,并鼓励参赛者探索多样化的基础模型和训练策略。
CVPR 2025 MobileMamba开源:轻量级多感受野视觉Mamba主干
该框架通过三阶段网络设计、高效多感受野特征交互模块以及训练测试策略,实现了在分类任务及高分辨率下游任务上的高性能与低效率平衡。