让 LLM 来评判 | 设计你自己的评估 prompt

第三篇《让LLM来评判》系列文章总结了评估模型的通用设计原则,包括清晰的任务描述、精细的评分标准、加入推理步骤和明确输出格式等。同时,也提到使用成对比较、引用参考内容及思维链等方式提升评估准确性,并探讨了奖励机制和社区机制的作用。

实测通义千问QwQ-Max-Preview:推理能力超 DeepSeek R1、o3mini, 将开源

作者发布了一篇关于QwQ-Max-Preview推理模型的文章,这是继QwQ-32B-Preview之后通义千问团队推出的又一新模型。文章介绍了该模型的基础模型为Qwen2.5-Max,并展示了其在编程、数学等任务中的强大表现。