扩散模型归档 - 第4页共12页

19岁少年「破解」谷歌新AI？每秒1479 token，扩散再战GPT!

2025年5月23日23时作者新智元

emini Diffusion，引爆社交平台。真相扑朔迷离，但有一点毫无疑问：谷歌I/O大会的「黑马

2025年5月19日23时作者极市干货

VAE 和 LDM，以实现最佳生成性能？
>>
加入极市CV技术交流群，走在计算机视觉的最前沿
太长

2025年5月18日16时作者机器之心

本文提出了一种基于傅里叶分解的扩散模型对抗净化方法，通过保留低频信息来有效去除图像中的对抗扰动，同时保持图像的语义内容和结构信息。

2025年5月17日16时作者 APPSO

通过深度学习模型和多模态生成技术，豆包 AI 可以理解和实现模糊的指令需求，实现大量并行生成高质量图片。该服务已应用于创意设计、故事生成等多个领域。

2025年5月17日16时作者机器之心

重要研究内容，在影视制作、短视频合成和虚拟仿真等方面都有应用价值。现有的商用和开源的视频生成模型，都

2025年5月16日11时作者机器之心

本文介绍清华大学与快手可灵团队合作的DiffMoE研究，通过动态token选择和全局token池设计提升扩散模型效率。论文在ImageNet分类图像生成任务中仅用4.58亿参数即超越6.75亿参数的Dense-DiT-XL模型。

2025年5月13日11时作者量子位

用AI无限扩展《我的世界》，用户通过鼠标键盘即可自由探索、创作高质量虚拟内容，支持8大Minecraft场景生成。Matrix-Game模型在视觉质量、控制能力等方面超越现有开源基线。

2025年5月11日16时作者量子位

ModelScope团队提出Nexus-Gen统一模型，融合MLMs和扩散模型能力，实现图像生成、理解与编辑。其技术细节包括预填充自回归策略和统一的数据格式定义。模型已在多个任务上取得GPT-4o级效果，并开源了训练数据、工程框架及论文。

2025年5月6日23时作者极市干货

256 生成上实现了最佳 (SOTA) 性能，FID得分为1.35，同时在短短64个epoch内就达