VAE 归档 - 每时AI

Flux Kontext Dev发布，免费开源一句话P图的时代到来了！

2025年6月29日11时作者路过银河AI

Flux Kontext Dev终于发布开源版本支持一句P图功能，但需要至少20G显存。本文详细介绍了如何使用基础版和带DeepSeek中文翻译版工作流进行操作，并分享了加载模型、处理图片的基本步骤以及各种常见功能演示，同时提供了官方提示词技巧和解决常见问题的方法。

256块NPU训成8B视频模型、超越Sora等一众闭源！抖音内容技术团队开源ContentV

2025年6月12日16时作者机器之心

抖音内容技术团队开源了ContentV，一种高效训练视频生成模型的方案，在有限资源下取得了与现有主流方案相近的生成效果。

自回归+扩散！Salesforce开源统一多模态模型BLIP3-o，图像理解与生成全拿下

2025年5月22日23时作者机器之心

OpenAI的GPT-4o展示了顶级图像理解与生成能力。BLIP3-o采用自回归+扩散框架，研究者对比了三种设计选择，并最终选择了CLIP + Flow Matching方案和顺序训练策略构建BLIP3-o模型。

统一自监督预训练！视觉模型权重无缝迁移下游任务，SiT收敛提速近47倍

2025年3月17日8时作者机器之心

表征能够提升扩散模型的收敛速度和生成质量。
然而，由于输入不匹配和 VAE 潜在空间的使用，将视觉模

今天起，汉字也能AI视频生成了！《滕王阁序》直接拿捏到位了

2025年1月9日16时作者量子位

AI视频生成模型通义万相2.1成功制作出多个复杂汉字、英文单词以及包括‘摸鱼一天快乐无边’、中世纪真人写实风动画等在内的多种风格的视频内容。通过采用VAE与DiT架构协同发力、超长序列训练上的突破和数据与评估双轮驱动的技术创新，实现了对无限长1080P视频的高效编解码，并在视觉质量和运动质量方面提升模型性能。

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28