连续Token助力文本生成图像迈向新高度!Kaiming团队提出Fluid:MS-COCO上实现6.16 FID
比基于离散 token 的模型实现更好的视觉质量。
>>
加入极市CV技术交流群,走在计算机视觉的最
比基于离散 token 的模型实现更好的视觉质量。
>>
加入极市CV技术交流群,走在计算机视觉的最
新智元报道编辑:LRS 好困。研究提出SANA-Sprint,一种高效的蒸馏扩散模型用于超快速文本到图像生成,仅需1-4步即可在H100上实现7.59 FID和0.74 GenEval的先进性能,并支持实时交互式生成。