clefourrier 归档

让 LLM 来评判 | 设计你自己的评估 prompt

2025年2月26日14时作者 Hugging Face

第三篇《让LLM来评判》系列文章总结了评估模型的通用设计原则，包括清晰的任务描述、精细的评分标准、加入推理步骤和明确输出格式等。同时，也提到使用成对比较、引用参考内容及思维链等方式提升评估准确性，并探讨了奖励机制和社区机制的作用。

2025年2月10日14时作者 Hugging Face

本文介绍了在生产中评估LLM评估模型的方法，包括选择基线、设计评估指标和计算评估结果。

2025年1月14日14时作者 Hugging Face

在使用LLM评估模型时，可以选择通用性强、能力高的大模型或专业性强、特定数据偏好的小模型。此外，还可以自行训练LM评估模型。

2024年12月27日14时作者 Hugging Face

本文介绍了缓解数据污染、设计评估任务和使用哨兵字符串等方法。还讨论了如何避免指令微调模型表现不佳，以及在多语言评估中选择合适的分词器。

2024年12月25日14时作者 Hugging Face

自动评估基准通常通过数据集和评估指标来测试模型的表现。文章介绍了基础概念、设计评估任务、选择合适的评估指标等方法，并指出了其优势与劣势，包括一致性、成本效益、易于理解以及高质量测试集的特性，但同时也提到复杂任务难以保证效果和数据污染的问题。