智谱新版VLM开源模型 GLM-4.1V-9B-Thinking

基于 GLM-4-9B-0414 基座模型,我们推出新版VLM开源模型 GLM-4.1V-9B-Thinking ,引入思考范式,通过课程采样强化学习 RLCS(Reinforcement Learning with Curriculum Sampling)全面提升模型能力, 达到 10B 参数级别的视觉语言模型的最强性能,在18个榜单任务中持平甚至超过8倍参数量的 Qwen-2.5-VL-72B。 我们同步开源基座模型 GLM-4.1V-9B-Base,希望能够帮助更多研究者探索视觉语言模型的能力边界。

参考文献:
[1] https://github.com/THUDM/GLM-4.1V-Thinking/blob/main/README_zh.md
[2] https://arxiv.org/abs/2507.01006
[3] https://github.com/THUDM/GLM-4.1V-Thinking
[4] https://huggingface.co/THUDM/GLM-4.1V-9B-Thinking/tree/main
[5] https://www.bigmodel.cn/dev/api/visual-reasoning-model/GLM-4.1V-Thinking



知识星球:Dify源码剖析及答疑,Dify扩展系统源码,AI书籍课程|AI报告论文,公众号付费资料。加微信buxingtianxia21进NLP工程化资料群,以及Dify交流群。

(文:NLP工程化)

发表评论