学术
统一细粒度感知!北大&阿里提出UFO:无需SAM,16个token让MLLM实现精准分割
本文介绍了一种名为UFO的方法,它能够通过开放式的语言界面实现分割和检测任务,无需额外解码器,利用多模态大模型的图像表征能力。
小米汽车首曝自动驾驶研究:相机和LiDAR联合重建框架Uni-Gaussians
论文提出Uni-Gaussians方法,利用高斯基元实现相机与激光雷达数据的联合重建。该方法在Waymo公开数据集上评估表现优异,能够准确模拟动态驾驶场景中的各种移动实体,并保持高质量渲染质量。
GPT-4.5刚出来就被攻破了?成功率破90%, MBZUAI团队出品
文章介绍了一篇关于对抗攻击的研究成果,该研究提出了一种新的方法M-Attack来提高对大型视觉语言模型的攻击成功率,并成功应用于多个商业模型中。
CVPR 2025 Qwen让AI「看见」三维世界,SeeGround实现零样本开放词汇3D视觉定位
重要任务,旨在让 AI 根据
自然语言描述
在 3D 场景中找到指定物体。
具体而言,给定一个 3D
刚刚,谷歌Gemini Live上新功能,能看懂手机屏幕、还能实时视频
谷歌在MWC上推出Project Astra与Gemini Live集成的新AI功能,包括屏幕共享和实时视频回答问题。这些功能提升了实时人工智能交互的能力,使Gemini Live能够更好地理解和响应用户的需求。
独家|华为诺亚方舟实验室主任换帅,90 后王云鹤接班姚骏
MLNLP社区是国内外知名的人工智能社区,致力于促进学术界、产业界和爱好者的交流合作。近期华为诺亚方舟实验室主任更换,新任领导为九零后科学家王云鹤。