HuggingFace 归档

一个模型超了DeepSeekR1、V3，参数671B，成本不到350万美元

MLNLP 社区致力于促进自然语言处理的研究与发展。Deep Cogito 提供了开源模型，通过迭代蒸馏与增强技术改进模型性能。Cogito v2 模型展示了强大的推理能力，并已在多个基准测试中优于多数开源模型。

2025年7月23日14时作者 AI先锋官

短短一周，阿里Qwen3从Kimi K2夺魁到连降空降，性能提升显著。Qwen3-235B-A22B-Instruct-2507在指令遵循、逻辑推理、文本理解等多个维度上大幅提升，超过多个顶级开源模型和闭源模型，在多领域测试中表现优异。同时具备长尾知识覆盖和更高质量的用户交互能力。

2025年6月17日11时作者量子位

国产推理大模型MiniMax-M1开源，支持高达10万token生成。其混合注意力架构和CISPO算法提升了训练效率，并在多个基准测试中表现优异。

2025年6月17日8时作者 NLP工程化

新发布的MonkeyOCR-3B OCR模型性能强劲，文档识别需求者可免费试用，大小仅3B。

2025年6月12日23时作者量子位

华为昇思MindSpore支持主流大模型的快速迁移与一键部署，实现零损耗移植和高效推理。通过MSAdapter工具简化代码转换，动态图多级流水、JIT编译等技术加速训练调试，百亿参数模型加载时间缩短至30秒。

2025年5月29日11时作者新智元

新版DeepSeek-R1开源，性能几乎与o4-mini相当。编程能力超越Claude 4 Sonnet，网友称赞思考时间长且逻辑缜密。对比Gemini 2.5 Pro在特定任务上表现出色，引发广泛关注。

2025年5月21日23时作者机器人大讲堂

北京人形发布RoboMIND数据集和‘天工’系列机器人后，推出X-Humanoid训练工具链解决跨框架适配问题。该工具链通过内置RoboMIND数据解析模块实现HDF5格式到LerobotDataset V2.1的转换，并提供模型训练配置文件指导用户进行高效开发。

2025年5月1日11时作者新智元

报告也来了！34页论文揭秘了模型的训练核心——递归+强化学习，让数学推理大提升。有人盛赞：DeepS

2025年4月28日16时作者量子位

DeepSeek即将发布R2的传闻持续发酵，HuggingFace创始人推荐“以不变应万变”。新模型R1T-Chimera由德国团队开发，结合了V3-0324和R1的优点，并已开源。该模型在解决特定问题上表现更优，但在理解三维空间方面仍需改进。