Labubu换装记！让视频换装变得如此简单！基于扩散Transformer的视频虚拟试衣新突破

大家好，我是每日给大家推荐优秀开源项目的小G。

今天要给大家介绍一个让人眼前一亮的项目——想象一下，你只需要一张衣服的照片和一段视频，就能看到自己穿上这件衣服的效果，而且是动态的视频效果！这不是科幻电影，而是刚刚开源的MagicTryOn项目实现的真实功能。

🌟 项目介绍

MagicTryOn是一个基于大规模视频扩散Transformer的视频虚拟试衣框架，它能够实现高质量的视频换装效果。这个项目最大的亮点在于能够在保持服装细节的同时，生成自然流畅的视频试衣效果。

🔧 核心技术特点

该项目采用了三个关键技术创新：

1. 强大的技术基础

采用Wan2.1扩散Transformer作为骨干网络
使用完整的自注意力机制来建模时空一致性

2. 精细的服装保真策略

引入从粗到细的服装保真策略
采用掩码感知损失来增强服装区域的保真度

3. 全面的功能支持

支持图像试衣
支持视频试衣
提供定制化试衣解决方案

📈 项目动态

从项目的更新时间线可以看出开发团队的高效执行力：

2025年5月27日：论文在ArXiv上发布
2025年6月9日：源代码和预训练权重正式开源

目前项目仍在积极开发中，团队计划陆续发布测试脚本、训练脚本以及第二版预训练模型权重。

🚀 快速开始

环境配置

项目支持Python 3.12.9，CUDA 12.3，PyTorch 2.2的环境配置：


# 创建conda环境conda create -n magictryon python==3.12.9conda activate magictryonpip install -r requirements.txt# 或者使用conda env create -f environment.yaml

注意：如果在安装Flash Attention时遇到错误，需要根据你的Python版本、CUDA版本和Torch版本手动下载安装包。

模型权重下载


cd Magic-TryOnHF_ENDPOINT=https://hf-mirror.com huggingface-cli download LuckyLiGY/MagicTryOn --local-dir ./weights/MagicTryOn_14B_V1

💡 功能演示

1. 图像试衣

对于简单的图像试衣需求，可以直接运行以下命令：


# 上身试衣CUDA_VISIBLE_DEVICES=0 python inference/image_tryon/predict_image_tryon_up.py
# 下身试衣CUDA_VISIBLE_DEVICES=1 python inference/image_tryon/predict_image_tryon_low.py

2. 视频试衣

视频试衣是该项目的核心功能：


# 上身视频试衣CUDA_VISIBLE_DEVICES=0 python inference/video_tryon/predict_video_tryon_up.py
# 下身视频试衣CUDA_VISIBLE_DEVICES=1 python inference/video_tryon/predict_video_tryon_low.py

3. 定制化试衣

对于有特殊需求的用户，项目提供了完整的定制化流程，需要完成以下五个步骤：

步骤1：服装描述生成

使用Qwen2.5-VL-7B-Instruct模型生成服装的描述性标题：


python inference/customize/get_garment_caption.py

步骤2：服装线条图提取

使用AniLines提取服装的结构线条：


python inference/customize/AniLines/infer.py --dir_in datasets/garment/vivo/vivo_garment --dir_out datasets/garment/vivo/vivo_garment_anilines --mode detail --binarize -1 --fp16 True --device cuda:1

步骤3：掩码生成

生成服装的不可知掩码，这对试衣过程中的区域控制至关重要：

首先需要按照指定的目录结构组织文件：


├── datasets│   ├── person|   |   ├── customize│   │   │   ├── video│   │   │   │   ├── 00001│   │   │   │   │   ├── video.mp4

然后运行掩码生成：

ounter(linepython inference/customize/gen_mask/app_mask.py

步骤4：不可知表示构建

通过移除服装特定特征来构建人物的不可知表示：

ounter(linepython inference/customize/get_masked_person.py

步骤5：DensePose处理

使用DensePose获取UV映射的密集人体坐标：

ounter(linebash inference/customize/detectron2/projects/DensePose/run.sh

完成所有步骤后，运行以下命令进行定制化试衣：

ounter(lineCUDA_VISIBLE_DEVICES=0 python inference/video_tryon/predict_video_tryon_customize.py

🎯 技术亮点

时空一致性保证：通过完整的自注意力机制确保视频帧间的连贯性
服装细节保真：从粗到细的策略确保服装纹理和细节的准确还原
多模态支持：同时支持图像和视频的试衣需求
灵活的定制化：提供完整的定制化流程，满足不同场景需求

📝 许可证信息

该项目采用Creative Commons BY-NC-SA 4.0许可证，这意味着：

✅ 可以自由复制、重新分发、混合、转换和构建
❗ 仅限非商业用途
❗ 需要给出适当的署名
❗ 衍生作品需要使用相同许可证

🔗 相关链接

📄 论文地址：https://arxiv.org/abs/2505.21325v2
🤗 模型权重：https://huggingface.co/LuckyLiGY/MagicTryOn
🌐 项目主页：https://vivocameraresearch.github.io/magictryon/
💻 源代码：https://github.com/vivoCameraResearch/Magic-TryOn/

MagicTryOn的出现标志着视频虚拟试衣技术的新突破。无论你是开发者、研究者，还是对新技术感兴趣的朋友，这个项目都值得关注。它不仅展示了当前AI技术的前沿水平，更为未来的应用场景提供了无限可能。

你觉得这样的技术会在哪些场景下大放异彩呢？欢迎在评论区分享你的想法！

扫码加入技术交流群，备注「开发语言-城市-昵称」

（文：GitHubStore）

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31