复旦&微软提出StableAnimator: 首个端到端的高质量ID一致性人类视频生成新框架!

复旦大学与微软等机构提出StableAnimator框架,实现高质量身份一致性人类视频生成。该框架通过全局内容感知面部编码器、分布感知的身份适配器和基于HJB方程的面部优化来保持人物身份信息的一致性并提升视频质量。

大模型助力分割,刷新10项SOTA!清华和美团提出HyperSeg:通用分割框架

首个基于视觉大语言模型(VLLM)的通用分割模型HyperSeg,能够处理像素级图像和视频感知任务,并具备复杂的推理和对话能力。在多个分割任务中刷新了10项SOTA,展现了卓越性能。