LLM 自回归做理解,MaskGIT 方案做生成!VILA‑U:一个模型搞定图像理解、视频理解和生成,简洁而强大 2025年6月9日23时 作者 极市干货 kGIT 方案做生成的生成理解统一模型。 >> 加入极市CV技术交流群,走在计算机视觉的最前沿 太长
多模态扩散模型开始爆发,这次是高速可控还能学习推理的LaViDa 2025年5月30日16时 作者 机器之心 的视觉-语言模型(VLM)也来了,即能够联合处理视觉和文本信息的模型。今天我们介绍的这个名叫 LaV