LLM 自回归做理解,MaskGIT 方案做生成!VILA‑U:一个模型搞定图像理解、视频理解和生成,简洁而强大 下午11时 2025/06/09 作者 极市干货 kGIT 方案做生成的生成理解统一模型。 >> 加入极市CV技术交流群,走在计算机视觉的最前沿 太长
多模态扩散模型开始爆发,这次是高速可控还能学习推理的LaViDa 下午4时 2025/05/30 作者 机器之心 的视觉-语言模型(VLM)也来了,即能够联合处理视觉和文本信息的模型。今天我们介绍的这个名叫 LaV