开源归档 - 第133页共201页

让 LLM 来评判 | 设计你自己的评估 prompt

2025年2月26日14时作者 Hugging Face

第三篇《让LLM来评判》系列文章总结了评估模型的通用设计原则，包括清晰的任务描述、精细的评分标准、加入推理步骤和明确输出格式等。同时，也提到使用成对比较、引用参考内容及思维链等方式提升评估准确性，并探讨了奖励机制和社区机制的作用。

2025年2月26日12时作者 GitHubStore

SurveyX 是一个利用大型语言模型生成高质量学术论文和调查的自动化系统。用户只需提供主题信息，即可获得定制化的学术材料。

2025年2月26日12时作者 GitHubStore

安读是一款电子书阅读器，支持多种格式的电子书，提供智能AI助手、个性化主题及笔记系统等功能，跨平台使用方便。

2025年2月26日8时作者 NLP工程化

本书介绍了多种优化方法及其在工程设计、数学和计算机科学等多个领域的应用，涵盖基础到高级的内容。

2025年2月26日8时作者 NLP工程化

本文提出MLGym框架和基准，评估前沿LLM在AI研究任务上的表现，并强调构建和完善评估体系的重要性。

2025年2月26日8时作者 NLP工程化

为2025年及以后的LLM技术应用提供循序渐进路线图，强调基础理论理解、效率提升和全局性考虑。

2025年2月26日8时作者 NLP工程化

FlashMLA是DeepSeek专为英伟达Hopper GPU打造的高效MLA解码内核，已在多个配置下实现高吞吐量和峰值性能。

2025年2月26日8时作者 NLP工程化

Zotero-arxiv-workflow：为用户自动合并arXiv预印本和期刊发表版本，一键更新最新信息和PDF。

2025年2月26日8时作者 NLP工程化

HeadInfer 是一个内存高效的推理框架，专为大型语言模型设计，通过逐头卸载策略减少 GPU 内存消耗。

2025年2月26日8时作者 NLP工程化

GitHub 上的 Customize-arXiv-Daily 工具允许用户通过自定义提示词获取感兴趣的每日 arXiv 论文推荐，支持本地模型 Ollama 和 DeepSeek，并提供电子邮件摘要和推荐。