Hugging Face，作者每时AI

让 LLM 来评判 | 奖励模型相关内容

下午2时 2025/02/14 作者 Hugging Face

奖励模型通过学习人工标注的成对 prompt 数据来预测分数，用于评估语言模型的表现。它们比传统LLM评估模型更快速且具有确定性，但需要特定微调和考虑位置偏差影响。

下午2时 2025/02/10 作者 Hugging Face

本文介绍了在生产中评估LLM评估模型的方法，包括选择基线、设计评估指标和计算评估结果。

下午2时 2025/01/25 作者 Hugging Face

上海AI实验室联合团队推出Mini-InternVL多模态大模型，仅5%参数量实现90%性能，支持自动驾驶、医学图片感知等垂类任务。

下午2时 2025/01/22 作者 Hugging Face

MME-Finance: 专家级理解和推理的多模态金融基准
1
研究背景
金融领域首个多模态基准正式

下午2时 2025/01/21 作者 Hugging Face

2024 年 4 月，我们发布了 Jina Reader (https://jina.ai/read

下午10时 2025/01/17 作者 Hugging Face

近日，MiniMax 发布了全新系列模型MiniMax-01，包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。该系列模型参数量高达4560亿，可以高效处理全球最长的400万token上下文，并实现了线性注意力机制，性能接近GPT-4。

下午2时 2025/01/16 作者 Hugging Face

上海AI实验室发布的书生·浦语3.0大模型通过数据精炼框架提升了数据效率和思维密度，实现了常规对话与深度思考能力融合。该模型使用4T训练数据达到主流开源模型18T的训练效果，并在多种评测集上性能领先。

下午2时 2025/01/14 作者 Hugging Face

在使用LLM评估模型时，可以选择通用性强、能力高的大模型或专业性强、特定数据偏好的小模型。此外，还可以自行训练LM评估模型。

下午2时 2025/01/11 作者 Hugging Face

这是关于评估模型的一系列文章的第一篇，介绍基础概念、选择评估模型以及设计和评估提示的方法。使用LLM作为评估工具能够有效评估文本中的复杂特性和细微之处。

下午10时 2025/01/08 作者 Hugging Face

近年来开发的评估数据集列表，但由于LLM的发展而可能不再适合当前评估方法。部分数据集在互联网上公开多年。