跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本
CLIP 模型通过对比学习实现了视觉与文本的对齐。然而其文本处理能力有限,研究团队提出 LLM2CLIP 方法利用大语言模型提升 CLIP 的多模态表示学习能力,显著提升了 CLIP 在中文检索任务中的表现,并在复杂视觉推理中提升了 LLaVA 模型的表现。
CLIP 模型通过对比学习实现了视觉与文本的对齐。然而其文本处理能力有限,研究团队提出 LLM2CLIP 方法利用大语言模型提升 CLIP 的多模态表示学习能力,显著提升了 CLIP 在中文检索任务中的表现,并在复杂视觉推理中提升了 LLaVA 模型的表现。
OpenAI 的 API 被泄露,艺术家发起公开信抗议无偿测试。用户可以使用 API 生成高质量视频,但仅能通过简易前端访问,三个小时后访问被关闭。艺术家认为自己是被引诱进行「艺术清洗」,呼吁 OpenAI 改变做法并为艺术家提供公平报酬。
本文汇总了图像超补全(Outpainting)技术的前沿模型和数据集资源,包括PQDiff、QueryOTR、U-Transformer和In&Out等方法。
本文揭示了推荐系统流行度偏差放大的原因,提出了一种基于正则项的方法——ReSN来缓解这一问题。通过引入谱范数正则项,约束评分矩阵的权重以减少流行度偏差的影响。
TokenFormer 是一种新的网络结构,通过在注意力机制中引入参数化键值对,实现了模型的灵活扩展和性能提升。它展示了在语言建模和视觉建模上的卓越能力,并提出了专家混合、参数高效微调、端云协同和增强可解释性等未来研究方向。
Yi Tay 是一名从谷歌离职的 AI 科学家,他在文章中分享了自己参与创办 Reka 并担任首席科学家的经历以及创业过程中的艰辛。他提到创业给他带来的健康方面的影响,并在回到谷歌从事研究工作的决定上也表示了对文化问题的看法。