超CLIP准确率11%!伯克利港大阐明「LLM文本-视觉」对齐深层机制

新智元报道
UC伯克利和香港大学团队的新工作LIFT首次系统性地剖析了冻结大语言模型作为文本编码器在多模态对齐中的优势来源、数据适配性和关键设计选择,显著提升了组合语义理解能力和长文本处理效果。