让 LLM 来评判 | 奖励模型相关内容
奖励模型通过学习人工标注的成对 prompt 数据来预测分数,用于评估语言模型的表现。它们比传统LLM评估模型更快速且具有确定性,但需要特定微调和考虑位置偏差影响。
奖励模型通过学习人工标注的成对 prompt 数据来预测分数,用于评估语言模型的表现。它们比传统LLM评估模型更快速且具有确定性,但需要特定微调和考虑位置偏差影响。
上海AI实验室联合团队推出Mini-InternVL多模态大模型,仅5%参数量实现90%性能,支持自动驾驶、医学图片感知等垂类任务。
2024 年 4 月,我们发布了 Jina Reader (https://jina.ai/read
近日,MiniMax 发布了全新系列模型MiniMax-01,包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。该系列模型参数量高达4560亿,可以高效处理全球最长的400万token上下文,并实现了线性注意力机制,性能接近GPT-4。
上海AI实验室发布的书生·浦语3.0大模型通过数据精炼框架提升了数据效率和思维密度,实现了常规对话与深度思考能力融合。该模型使用4T训练数据达到主流开源模型18T的训练效果,并在多种评测集上性能领先。