让 LLM 来评判 | 设计你自己的评估 prompt
第三篇《让LLM来评判》系列文章总结了评估模型的通用设计原则,包括清晰的任务描述、精细的评分标准、加入推理步骤和明确输出格式等。同时,也提到使用成对比较、引用参考内容及思维链等方式提升评估准确性,并探讨了奖励机制和社区机制的作用。
第三篇《让LLM来评判》系列文章总结了评估模型的通用设计原则,包括清晰的任务描述、精细的评分标准、加入推理步骤和明确输出格式等。同时,也提到使用成对比较、引用参考内容及思维链等方式提升评估准确性,并探讨了奖励机制和社区机制的作用。
FlashMLA是DeepSeek专为英伟达Hopper GPU打造的高效MLA解码内核,已在多个配置下实现高吞吐量和峰值性能。
Zotero-arxiv-workflow:为用户自动合并arXiv预印本和期刊发表版本,一键更新最新信息和PDF。
GitHub 上的 Customize-arXiv-Daily 工具允许用户通过自定义提示词获取感兴趣的每日 arXiv 论文推荐,支持本地模型 Ollama 和 DeepSeek,并提供电子邮件摘要和推荐。