小红书hi lab首次开源文本大模型,训练资源不到Qwen2.5 72B 的四分之一

小红书 hi lab 发布开源文本大模型 dots.llm1,参数量为 1420亿(142B),上下文长度32K。采用轻量级数据处理流程和MoE架构训练,相比Qwen2.5-72B在预训练阶段仅需13万GPU小时。支持多轮对话、知识理解与问答等任务,在多个测试中表现突出。

对话DeepSeek:如何看待你同时登顶中美App Store应用榜单?|

DeepSeek应用登顶苹果中国和美国地区应用商店免费APP下载排行榜,成为首个在美区超越ChatGPT并登上榜首的中国企业研发大模型产品。其特性包括低成本、开源及高性能等,展示了技术民主化与用户信任的重要性。