Qwen3 Embedding 系列最核心的创新,在于基于 Qwen3 LLM 强大的文本合成能力,设计了“合成数据驱动的弱监督 + 高质量数据的有监督微调 + 模型合并”的多阶段训练(multi-stage training)的pipeline。
-
阶段一:大规模弱监督预训练(Weakly Supervised Pre-Training)
-
阶段二:高质量数据有监督微调(Supervised Fine-Tuning)
-
阶段三:模型合并(Model Merging)

参考文献:
[1] Qwen3-Embedding:https://modelscope.cn/collections/Qwen3-Embedding-3edc3762d50f48
[2] Qwen3-Reranker:https://modelscope.cn/collections/Qwen3-Reranker-6316e71b146c4f
[3] GitHub:https://github.com/QwenLM/Qwen3-Embedding
[4] 技术报告:https://github.com/QwenLM/Qwen3-Embedding/blob/main/qwen3_embedding_technical_report.pdf
[5] 基于Qwen3的Embedding和Rerank模型系列:https://mp.weixin.qq.com/s/jPdAyby_QwyTbK6FWuDQvg
知识星球服务内容:Dify源码剖析及答疑,Dify对话系统源码,NLP电子书籍报告下载,公众号所有付费资料。加微信buxingtianxia21进NLP工程化资料群。
(文:NLP工程化)