Labubu换装记!让视频换装变得如此简单!基于扩散Transformer的视频虚拟试衣新突破


大家好,我是每日给大家推荐优秀开源项目的小G。

今天要给大家介绍一个让人眼前一亮的项目——想象一下,你只需要一张衣服的照片和一段视频,就能看到自己穿上这件衣服的效果,而且是动态的视频效果!这不是科幻电影,而是刚刚开源的MagicTryOn项目实现的真实功能。

🌟 项目介绍

MagicTryOn是一个基于大规模视频扩散Transformer的视频虚拟试衣框架,它能够实现高质量的视频换装效果。这个项目最大的亮点在于能够在保持服装细节的同时,生成自然流畅的视频试衣效果。

🔧 核心技术特点

该项目采用了三个关键技术创新:

1. 强大的技术基础

  • 采用Wan2.1扩散Transformer作为骨干网络
  • 使用完整的自注意力机制来建模时空一致性

2. 精细的服装保真策略

  • 引入从粗到细的服装保真策略
  • 采用掩码感知损失来增强服装区域的保真度

3. 全面的功能支持

  • 支持图像试衣
  • 支持视频试衣
  • 提供定制化试衣解决方案

📈 项目动态

从项目的更新时间线可以看出开发团队的高效执行力:

  • 2025年5月27日:论文在ArXiv上发布
  • 2025年6月9日:源代码和预训练权重正式开源

目前项目仍在积极开发中,团队计划陆续发布测试脚本、训练脚本以及第二版预训练模型权重。

🚀 快速开始

环境配置

项目支持Python 3.12.9,CUDA 12.3,PyTorch 2.2的环境配置:


# 创建conda环境conda create -n magictryon python==3.12.9conda activate magictryonpip install -r requirements.txt# 或者使用conda env create -f environment.yaml

注意:如果在安装Flash Attention时遇到错误,需要根据你的Python版本、CUDA版本和Torch版本手动下载安装包。

模型权重下载


cd Magic-TryOnHF_ENDPOINT=https://hf-mirror.com huggingface-cli download LuckyLiGY/MagicTryOn --local-dir ./weights/MagicTryOn_14B_V1

💡 功能演示

1. 图像试衣

对于简单的图像试衣需求,可以直接运行以下命令:


# 上身试衣CUDA_VISIBLE_DEVICES=0 python inference/image_tryon/predict_image_tryon_up.py
# 下身试衣CUDA_VISIBLE_DEVICES=1 python inference/image_tryon/predict_image_tryon_low.py

2. 视频试衣

视频试衣是该项目的核心功能:


# 上身视频试衣CUDA_VISIBLE_DEVICES=0 python inference/video_tryon/predict_video_tryon_up.py
# 下身视频试衣CUDA_VISIBLE_DEVICES=1 python inference/video_tryon/predict_video_tryon_low.py

3. 定制化试衣

对于有特殊需求的用户,项目提供了完整的定制化流程,需要完成以下五个步骤:

步骤1:服装描述生成

使用Qwen2.5-VL-7B-Instruct模型生成服装的描述性标题:


python inference/customize/get_garment_caption.py

步骤2:服装线条图提取

使用AniLines提取服装的结构线条:


python inference/customize/AniLines/infer.py --dir_in datasets/garment/vivo/vivo_garment --dir_out datasets/garment/vivo/vivo_garment_anilines --mode detail --binarize -1 --fp16 True --device cuda:1

步骤3:掩码生成

生成服装的不可知掩码,这对试衣过程中的区域控制至关重要:

首先需要按照指定的目录结构组织文件:


├── datasets│   ├── person|   |   ├── customize│   │   │   ├── video│   │   │   │   ├── 00001│   │   │   │   │   ├── video.mp4

然后运行掩码生成:

ounter(linepython inference/customize/gen_mask/app_mask.py

步骤4:不可知表示构建

通过移除服装特定特征来构建人物的不可知表示:

ounter(linepython inference/customize/get_masked_person.py

步骤5:DensePose处理

使用DensePose获取UV映射的密集人体坐标:

ounter(linebash inference/customize/detectron2/projects/DensePose/run.sh

完成所有步骤后,运行以下命令进行定制化试衣:

ounter(lineCUDA_VISIBLE_DEVICES=0 python inference/video_tryon/predict_video_tryon_customize.py

🎯 技术亮点

  1. 时空一致性保证:通过完整的自注意力机制确保视频帧间的连贯性
  2. 服装细节保真:从粗到细的策略确保服装纹理和细节的准确还原
  3. 多模态支持:同时支持图像和视频的试衣需求
  4. 灵活的定制化:提供完整的定制化流程,满足不同场景需求

📝 许可证信息

该项目采用Creative Commons BY-NC-SA 4.0许可证,这意味着:

  • ✅ 可以自由复制、重新分发、混合、转换和构建
  • ❗ 仅限非商业用途
  • ❗ 需要给出适当的署名
  • ❗ 衍生作品需要使用相同许可证

🔗 相关链接

  • 📄 论文地址:https://arxiv.org/abs/2505.21325v2
  • 🤗 模型权重:https://huggingface.co/LuckyLiGY/MagicTryOn
  • 🌐 项目主页:https://vivocameraresearch.github.io/magictryon/
  • 💻 源代码:https://github.com/vivoCameraResearch/Magic-TryOn/

MagicTryOn的出现标志着视频虚拟试衣技术的新突破。无论你是开发者、研究者,还是对新技术感兴趣的朋友,这个项目都值得关注。它不仅展示了当前AI技术的前沿水平,更为未来的应用场景提供了无限可能。

你觉得这样的技术会在哪些场景下大放异彩呢?欢迎在评论区分享你的想法!






扫码加入技术交流群,备注「开发语言-城市-昵称

(文:GitHubStore)

发表评论