Embedding的9点总结-从架构、数据到代表模型

今天是2025年8月4日,星期一,北京,晴

我们来回到RAG方向,来看看一个技术总结,关于Embedding的9点总结-架构、数据及模型,其中做了一些整理和收录,做个记录,会有帮助,是做RAG的一个选型库。

一、Embedding的9点总结-架构、数据及模型

文本Embedding进展,看一个技术总结,《On The Role of Pretrained Language Models in General-Purpose Text Embeddings: A Survey》,https://arxiv.org/pdf/2507.20783,主要做的是用文本嵌入(General-Purpose Text Embeddings, GPTE)的总结,核心看架构、数据,以及其他的模态(多模态、embdding模态)的embedding整理。

1、通用文本嵌入(GPTE)模型的典型架构和训练方式

2、通用文本embedding的训练数据

3、通用文本embedding的代表模型及参数

4、通用文本embedding训练数据的合成方案总结

5、当前通用文本embedding的性能/参数量对比

6、代表性多模态embedding工作

7、多模态embedding的训练数据集

8、代表性代码embedding模型

9、代表性代码embedding的训练数据

参考文献

1、https://arxiv.org/pdf/2507.20783

(文:老刘说NLP)

发表评论