语言模型归档

OpenAI时隔6年再度开源！两款推理模型，o4-mini级，手机和笔记本能跑

2025年8月6日12时作者智东西

次开源语言模型！
智东西8月6日报道，今天，OpenAI终于放出其传闻已久的开源模型：
gpt-os

2025年7月22日8时作者 NLP工程化

ScienceMeter是专注于语言模型中科学知识更新的评测工具，涵盖10个领域，支持多款评测脚本及内置基线训练示例，数据集包含论文的支持与反驳合成科学论断，代码开源供科研人员使用、反馈和贡献。

2025年7月20日16时作者新智元

！
基于工作记忆的认知测试显示，LLM的上下文检索存在局限。在一项人类稳定保持高正确率的简单检索任务

2025年7月11日8时作者 NLP工程化

大语言模型高质量数据集汇总更新（截至2025.5）, 提供参考文献和加入知识星球途径。

2025年7月6日11时作者机器之心

本周会员通讯聚焦MLLMs幻觉问题、AI公司运营等议题。研究发现长推理链下MLLMs产生更多幻觉，不同来源的幻觉表现差异大。多模态模型在视觉编码器设计与训练机制存在失衡现象，导致语言主导现象频发。

业研究人员。
社区的愿景
是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进

2025年7月2日16时作者机器之心

研究提出了一种新的方法——内源性奖励模型，它可以从大语言模型中挖掘出质量较高的奖励信号，而无需依赖人类标注数据。这项工作为机器学习领域提供了理论基础，并展示了其在常见任务中的有效性。

MLNLP社区发布了关于大型语言模型思维链推理的研究论文《Thought Anchors: Which LLM Reasoning Steps Matter?》，提出思维锚点概念，系统分析了高级计划句和不确定性管理句在多步推理中的重要性，并开发了三种归因方法进行验证。

2025年6月28日16时作者新智元

AI当场翻车。不仅因「氛围管理」亏掉底裤，还自我认知混乱，一度坚信自己是人，还要穿西装给顾客送货员。

2025年6月23日16时作者机器之心

斯坦福大学 CS336 课程发布，引领学生从零开始开发自己的语言模型，涵盖基础、系统等多个单元。