Hugging Face，作者每时AI

社区供稿 | ReaderLM v2: HTML 转 Markdown 和 JSON 的前沿小型语言模型

2025年1月21日14时作者 Hugging Face

2024 年 4 月，我们发布了 Jina Reader (https://jina.ai/read

2025年1月17日22时作者 Hugging Face

近日，MiniMax 发布了全新系列模型MiniMax-01，包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。该系列模型参数量高达4560亿，可以高效处理全球最长的400万token上下文，并实现了线性注意力机制，性能接近GPT-4。

2025年1月16日14时作者 Hugging Face

上海AI实验室发布的书生·浦语3.0大模型通过数据精炼框架提升了数据效率和思维密度，实现了常规对话与深度思考能力融合。该模型使用4T训练数据达到主流开源模型18T的训练效果，并在多种评测集上性能领先。

2025年1月14日14时作者 Hugging Face

在使用LLM评估模型时，可以选择通用性强、能力高的大模型或专业性强、特定数据偏好的小模型。此外，还可以自行训练LM评估模型。

2025年1月11日14时作者 Hugging Face

这是关于评估模型的一系列文章的第一篇，介绍基础概念、选择评估模型以及设计和评估提示的方法。使用LLM作为评估工具能够有效评估文本中的复杂特性和细微之处。

2025年1月8日22时作者 Hugging Face

近年来开发的评估数据集列表，但由于LLM的发展而可能不再适合当前评估方法。部分数据集在互联网上公开多年。

2024年12月31日14时作者 Hugging Face

过去几年，大语言模型 (LLM) 的进程主要由训练时计算缩放主导。尽管这种范式已被证明非常有效，但预

2024年12月27日14时作者 Hugging Face

本文介绍了缓解数据污染、设计评估任务和使用哨兵字符串等方法。还讨论了如何避免指令微调模型表现不佳，以及在多语言评估中选择合适的分词器。

2024年12月25日22时作者 Hugging Face

这是
自动评估基准
系列文章的第二篇，敬请关注系列文章:
基础概念
设计你的自动评估任务
一些评估测

2024年12月25日14时作者 Hugging Face

自动评估基准通常通过数据集和评估指标来测试模型的表现。文章介绍了基础概念、设计评估任务、选择合适的评估指标等方法，并指出了其优势与劣势，包括一致性、成本效益、易于理解以及高质量测试集的特性，但同时也提到复杂任务难以保证效果和数据污染的问题。