首个无编码器的3D多模态大语言模型ENEL,7B参数即可媲美13B!
首次在3D多模态大语言模型中移除了编码器,让LLM直接处理3D编码任务。通过提出混合语义损失和分层几何聚合策略,首个无编码器的3D LMM ENEL表现出色,7B模型与ShapeLLM-13B相当,在多个任务上超过现有方法。
首次在3D多模态大语言模型中移除了编码器,让LLM直接处理3D编码任务。通过提出混合语义损失和分层几何聚合策略,首个无编码器的3D LMM ENEL表现出色,7B模型与ShapeLLM-13B相当,在多个任务上超过现有方法。
研究发现DeepSeek生成的74.2%文本风格与OpenAI模型相似,Copyleaks开发集成系统识别具体AI模型。结果显示DeepSeek与OpenAI模型有显著风格相似性。
MITracker提出了一种高效的多视角跟踪方法,通过融合多视角特征解决了传统单视角跟踪中的遮挡和目标丢失问题。该研究构建了大规模的多视角跟踪数据集MVTrack,并提出了类无关的多视角跟踪方案MITracker,在多个评估指标上达到了最先进的性能。
首届跨域少样本物体检测挑战赛(CD-FSOD)由NTIRE2025举办,旨在提升小样本目标检测模型在不同领域数据上的泛化能力。大赛聚焦跨域场景下的少样本目标检测任务,提供多种验证集用于实验,并鼓励参赛者探索多样化的基础模型和训练策略。
该框架通过三阶段网络设计、高效多感受野特征交互模块以及训练测试策略,实现了在分类任务及高分辨率下游任务上的高性能与低效率平衡。
本文提出了一种基于原型驱动的课程学习框架,用于改进掩码图像建模(MIM)的训练过程。在同样的训练时间下,该方法比标准 MAE 训练快16倍学会 NN 任务的视觉表示。
文章介绍了极视角科技的内容合作和市场合作渠道,包括内容发布的合作伙伴需求、算法开发与应用、大模型比赛及培训等合作机会,并详细描述了如何对接这些合作机会。