连续Token助力文本生成图像迈向新高度!Kaiming团队提出Fluid:MS-COCO上实现6.16 FID
比基于离散 token 的模型实现更好的视觉质量。
>>
加入极市CV技术交流群,走在计算机视觉的最
比基于离散 token 的模型实现更好的视觉质量。
>>
加入极市CV技术交流群,走在计算机视觉的最
Wonderland团队首次证明三维重建模型可以有效地建立在扩散模型的潜在空间上,实现高效的三维场景生成。该技术结合视频生成模型和大规模3D重建模型,实现了高效高质量的大规模3D场景生成。