Qwen 又发布了 4 个偏好建模模型

Qwen 又发布了 4 个模型，WorldPM-72B，WorldPM-72B-HelpSteer2 ，WorldPM-72B-RLHFLow，WorldPM-72B-UltraFeedback。

不过这些模型都是偏好建模模型，你可以简单理解为给其他模型的回答打分的模型。最大的用途是用来监督学习的。官方也说使用这个训练比从0开始训练效果要好。

参考文献：
[1] 地址：https://huggingface.co/Qwen/WorldPM-72B
[2] 论文：https://arxiv.org/pdf/2505.10527
[3] https://github.com/QwenLM/WorldPM

知识星球服务内容：Dify源码剖析及答疑，Dify对话系统源码，NLP电子书籍报告下载，公众号所有付费资料。加微信buxingtianxia21进NLP工程化资料群。

（文：NLP工程化）