一个模型超了DeepSeekR1、V3,参数671B,成本不到350万美元

MLNLP 社区致力于促进自然语言处理的研究与发展。Deep Cogito 提供了开源模型,通过迭代蒸馏与增强技术改进模型性能。Cogito v2 模型展示了强大的推理能力,并已在多个基准测试中优于多数开源模型。

重磅!阿里Qwen3超越Kimi-K2、DeepSeek-V3登顶,附一手实测

短短一周,阿里Qwen3从Kimi K2夺魁到连降空降,性能提升显著。Qwen3-235B-A22B-Instruct-2507在指令遵循、逻辑推理、文本理解等多个维度上大幅提升,超过多个顶级开源模型和闭源模型,在多领域测试中表现优异。同时具备长尾知识覆盖和更高质量的用户交互能力。

Day0迁移、一键部署,华为开源的昇思MindSpore成为大模型开发的“万能钥匙”

华为昇思MindSpore支持主流大模型的快速迁移与一键部署,实现零损耗移植和高效推理。通过MSAdapter工具简化代码转换,动态图多级流水、JIT编译等技术加速训练调试,百亿参数模型加载时间缩短至30秒。

北京人形开源工具链,开启 RoboMIND 数据集与“天工”机器人高效应用新范式

北京人形发布RoboMIND数据集和‘天工’系列机器人后,推出X-Humanoid训练工具链解决跨框架适配问题。该工具链通过内置RoboMIND数据解析模块实现HDF5格式到LerobotDataset V2.1的转换,并提供模型训练配置文件指导用户进行高效开发。

不用等R2了!第三方给新版DeepSeek V3添加深度思考,推理101秒破解7米甘蔗过2米门

DeepSeek即将发布R2的传闻持续发酵,HuggingFace创始人推荐“以不变应万变”。新模型R1T-Chimera由德国团队开发,结合了V3-0324和R1的优点,并已开源。该模型在解决特定问题上表现更优,但在理解三维空间方面仍需改进。