多模态大模型VILA-HD 归档 - 每时AI

4K分辨率视觉预训练首次实现！伯克利&英伟达多模态新SOTA，更准且3倍加速处理

2025年4月17日16时作者机器之心

伯克利联合英伟达提出PS3视觉编码器，首次在4K超高分辨率下高效预训练，并引入高分辨率基准测试集4KPro。该方法显著提升了高清场景下的表现和效率。