机器之心
Video Depth Anything来了!字节开源首款10分钟级长视频深度估计模型,性能SOTA
Video Depth Anything 工作解决了单目深度估计在视频领域的时序一致性问题,融合时空头、时域一致性损失函数和关键帧推理策略,实现精度、速度及稳定性三者的平衡。
MV-DUSt3R+: 只需2秒!Meta Reality Labs开源最新三维基座模型,多视图大场景重建
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000
年末惊喜!ByteDance Research视频理解大模型「眼镜猴」正式发布
ByteDance Research 的视频理解大模型眼镜猴(Tarsier)发布了第二代模型 Tarsier2 及相关技术报告。Tarsier2 在影视名场面分析和视频描述任务上表现突出,展示了强大的视频理解和生成能力。