视觉-语言归档 - 每时AI

LLM 自回归做理解，MaskGIT 方案做生成！VILA‑U：一个模型搞定图像理解、视频理解和生成，简洁而强大

2025年6月9日23时作者极市干货

kGIT 方案做生成的生成理解统一模型。
>>
加入极市CV技术交流群，走在计算机视觉的最前沿
太长

多模态扩散模型开始爆发，这次是高速可控还能学习推理的LaViDa

2025年5月30日16时作者机器之心

的视觉-语言模型（VLM）也来了，即能够联合处理视觉和文本信息的模型。今天我们介绍的这个名叫
LaV