微软又基于 Qwen2.5-Coder 搞出了 NextCoder-32B

Qwen2.5-Coder 潜力无限,微软又基于 Qwen2.5-Coder 搞出了 NextCoder-32B。这个新模型在 Aider Leaderboard 刷到了 23.6 分,接近了 gpt-4o 的水平。

采用的魔改方法包括 SeleKT 后训练,以及魔改为带有 RoPE、SwiGLU、RMSNorm 和 Attention QKV 偏置的 transformers。

参考文献:
[1] 地址:https://huggingface.co/microsoft/NextCoder-32B

(文:NLP工程化)

发表评论