Video Depth Anything来了!字节开源首款10分钟级长视频深度估计模型,性能SOTA

Video Depth Anything 工作解决了单目深度估计在视频领域的时序一致性问题,融合时空头、时域一致性损失函数和关键帧推理策略,实现精度、速度及稳定性三者的平衡。

年末惊喜!ByteDance Research视频理解大模型「眼镜猴」正式发布

ByteDance Research 的视频理解大模型眼镜猴(Tarsier)发布了第二代模型 Tarsier2 及相关技术报告。Tarsier2 在影视名场面分析和视频描述任务上表现突出,展示了强大的视频理解和生成能力。