扩散Transformer 归档

免剪辑直出！AI生成多角色同框对话视频，动态路由精准绑定音频

2025年7月17日16时作者新智元

Bind-Your-Avatar是首个专注同场景多角色说话视频生成的框架，基于扩散Transformer（MM-DiT）通过细粒度Embedding路由实现精确控制。该方法构建了MTCC数据集和基准测试，并在多个指标上显著优于现有方法。

2025年6月18日11时作者 GitHubStore

MagicTryOn项目利用Transformer模型实现高质量视频试衣效果，包括图像和视频试衣支持。该技术已在多个场景中展现出巨大潜力。

2025年6月14日16时作者新智元

康奈尔、CMU等机构的研究者，提出了前所未有的「混合体」——Eso-LM。有人惊呼：「自回归危险了。

2025年6月11日16时作者量子位

复旦大学和字节跳动团队联合提出CreatiDesign新模型，可实现高精度、多模态、可编辑的AI图形设计生成。该模型解决了扩散Transformer架构在处理图形设计时面临的统一建模、精细解耦控制及大规模高质量标注数据缺失等问题。

2025年2月28日12时作者路过银河AI

的视频基础模型，它突破了视频生成的界限。
Wan2.1
提供以下主要功能：
👍
SOTA 性能
：

2024年12月15日20时2024年11月21日23时作者极市干货

↑ 点击
蓝字
关注极市平台
作者丨AI生成未来
来源丨AI生成未来
编辑丨极市平台
极市导读
模型