CVPR 2025 VAST和北航开源MIDI,从单张图像端到端生成三维组合场景
本文介绍了一篇关于 MIDI 模型的研究论文,MIDI 能够从单张图像生成高几何质量的组合式 3D 场景。该模型在多个数据集上的表现超越现有方法,并有望应用于建筑设计、虚拟现实等多个领域。
本文介绍了一篇关于 MIDI 模型的研究论文,MIDI 能够从单张图像生成高几何质量的组合式 3D 场景。该模型在多个数据集上的表现超越现有方法,并有望应用于建筑设计、虚拟现实等多个领域。
第五届对抗机器学习Workshop将在2025年6月的CVPR会议上举行,主题为’基础模型+X’。研讨会旨在探讨基础模型及其特定领域应用中的鲁棒性挑战,并设立最佳论文奖等奖项吸引投稿。
北京航空航天大学团队发布小尺寸简易视频理解框架TinyLLaVA-Video,其参数量不超过4B,在多个视频理解基准上优于7B以上模型。该项目开源模型权重、训练代码和数据集,并支持模块化设计和自定义训练策略,降低研究门槛。
本文介绍了多模态领域基于Next Token Prediction的最新进展,包括Tokenization技术、模型架构设计、训练方法与推理策略等,并提出了四个亟待解决的挑战。