单向VLM变双向!人大斯坦福等提出MoCa框架:双向多模态编码器 2025年7月10日16时 作者 新智元 中国人民大学等机构的研究者提出MoCa框架,通过双阶段方法将预训练因果VLM转化为双向多模态编码模型。该框架利用持续预训练和异构对比微调提升表示能力和泛化性能,在多种任务上优于现有模型。
MoCa:首个大规模双向多模态表征模型 2025年7月5日14时 作者 PaperAgent 本文提出MoCa框架,通过持续预训练和异构对比学习微调两阶段方法,将单向因果注意力机制的VLM转化为高效的双向多模态编码器,解决多模态嵌入模型的表示质量问题。