机器之心
3D基础模型时代开启?Meta与牛津大学推出VGGT,一站式Transformer开创高效3D视觉新范式
VGGT 是一种基于纯前馈 Transformer 架构的通用 3D 视觉模型,能在单张或多张图像中直接预测相机参数、深度图和点云等几何信息。其推理速度可达秒级,并在多个任务中超越传统方法。
阿里深夜开源Qwen2.5-Omni,7B参数完成看、听、说、写
阿里发布全新 Qwen2.5-Omni 多模态大模型,支持语音和视频聊天,并开源了7B参数的Thinker-Talker架构模型,性能优于单模态模型。