扩散模型归档 - 第3页共12页 - 每时AI

10×加速！DCM显著提升视频扩散模型推理效率！HunyuanVideo13B推理时间从1500秒缩短至120秒！

2025年6月19日8时作者机器之心

本文提出了一种双专家一致性模型DCM来解决视频生成中的一致性蒸馏问题，通过解耦语义合成与细节精修，显著减少采样步数的同时保持了较高的视觉质量。

LLM 自回归+Diffusion Loss？Orthus：仅需72小时训练时间，即可高精度多模态生成

2025年6月17日23时作者极市干货

型
Orthus，可同时生成离散文本和连续图像特征。其通过特定的扩散头和语言模型头分别处理图像和文本

CVPR 2025 UniRestore：统一图像复原新框架

2025年6月16日23时作者极市干货

本文提出UniRestore框架，结合互补特征恢复模块和任务特征适配器，有效弥合感知式与任务导向图像恢复之间的差距，在多项任务中展现了领先性能和良好的可扩展性。

何恺明新作：给扩散模型加正则化，无需预训练无需数据增强，超简单实现性能提升

2025年6月12日23时作者量子位

研究者提出一种新的正则化方法Dispersive Loss，旨在改进扩散模型生成图片的效果。该方法不需要定义正样本对，通过鼓励中间表示的分散性来提高模型的泛化能力和生成质量。论文在ImageNet数据集上进行了测试，并展示了其有效性。

NeurIPS 2024 TextHarmony：和谐统一的多模态文字理解与生成大模型

2025年6月12日8时作者极市干货

TextHarmony是首个在单一模型中实现视觉文本感知、理解与生成任务的OCR研究，通过ViT+MLLM+Diffusion架构及Slide-LoRA缓解模态不一致问题，显著提高OCR相关任务性能。

LLM 自回归做理解，MaskGIT 方案做生成！VILA‑U：一个模型搞定图像理解、视频理解和生成，简洁而强大

2025年6月9日23时作者极市干货

kGIT 方案做生成的生成理解统一模型。
>>
加入极市CV技术交流群，走在计算机视觉的最前沿
太长

ICLR 2025｜一个 Transformer 统一多模态理解和生成！Show-o：LLM 自回归做理解，MaskGIT做生成

2025年5月31日8时作者极市干货

生成任务相统一的Transformer模型
Show-o，它通过结合自回归和离散扩散建模，创新性地用

无需借助DINOv2！DiT自表征对齐：用自蒸馏取代 REPA，高效提高生成性能

2025年5月29日8时作者极市干货

方法，通过自蒸馏的方式就可获得表征指导，实验结果表明，将 SRA 应用于 DiTs 和 SiTs 会