年末惊喜!ByteDance Research视频理解大模型「眼镜猴」正式发布

ByteDance Research 的视频理解大模型眼镜猴(Tarsier)发布了第二代模型 Tarsier2 及相关技术报告。Tarsier2 在影视名场面分析和视频描述任务上表现突出,展示了强大的视频理解和生成能力。

贾佳亚团队 x Adobe提出GenProp,物体追踪移除特效样样在行

近日研究团队使用GenProp模型回答了Text-to-Video模型潜力的问题。GenProp展示了强大的传播能力,包括物体移除、背景替换等任务,并且优于传统方法。论文提出了通用框架和数据制造技术,展现了模型在多种视觉编辑中的应用前景。