今天是2025年8月4日,星期一,北京,晴
我们来回到RAG方向,来看看一个技术总结,关于Embedding的9点总结-架构、数据及模型,其中做了一些整理和收录,做个记录,会有帮助,是做RAG的一个选型库。
一、Embedding的9点总结-架构、数据及模型
文本Embedding进展,看一个技术总结,《On The Role of Pretrained Language Models in General-Purpose Text Embeddings: A Survey》,https://arxiv.org/pdf/2507.20783,主要做的是用文本嵌入(General-Purpose Text Embeddings, GPTE)的总结,核心看架构、数据,以及其他的模态(多模态、embdding模态)的embedding整理。
1、通用文本嵌入(GPTE)模型的典型架构和训练方式

2、通用文本embedding的训练数据

3、通用文本embedding的代表模型及参数

4、通用文本embedding训练数据的合成方案总结

5、当前通用文本embedding的性能/参数量对比

6、代表性多模态embedding工作


7、多模态embedding的训练数据集

8、代表性代码embedding模型

9、代表性代码embedding的训练数据

参考文献
1、https://arxiv.org/pdf/2507.20783
(文:老刘说NLP)