DeepSeek上线国家超算平台!671B满血版,三大运营商接入,玄铁芯片适配
国家超算互联网平台上线、DeepSeek-R1发布及适配,以及三大运营商全面接入等消息表明DeepSeek影响力扩展至产业深层。腾讯云、阿里云和商汤纷纷推出优惠策略加速竞争,AI芯片厂商加快输出速度。ai.com域名被指向DeepSeek官网,暗示其重要性增加。
国家超算互联网平台上线、DeepSeek-R1发布及适配,以及三大运营商全面接入等消息表明DeepSeek影响力扩展至产业深层。腾讯云、阿里云和商汤纷纷推出优惠策略加速竞争,AI芯片厂商加快输出速度。ai.com域名被指向DeepSeek官网,暗示其重要性增加。
英伟达新硬件优化论文《DeepSeek-V3》绕过CUDA直接使用PTX编程语言进行优化,大幅提升硬件效率。专家指出这不代表完全脱离CUDA生态,而是展示出优化其他GPU的能力,并引发了对AI是否能编写底层代码的讨论。
杭州阿里云发布新春节礼大模型Qwen2.5-Max,其在多个基准测试中表现优于DeepSeek V3等模型。Qwen2.5-Max具备超大规模MoE模型特性和多模态能力展示功能。
OpenAI的新研究展示了通过增加推理时的计算量来提升模型对抗性稳健性的潜力,这一发现可能缓解外界对Agent能力增强后面临安全风险的担忧。
DeepSeek-R1模型引发广泛关注,成本从数十万到几百元不等。其表现超越多种榜单和测试任务,包括LiveBench和PlanBench,在公开数据上甚至超过GPT-4和Gemini Flash。同时引发了关于构建新平台强化微调的兴趣。
Anysphere公司最新完成1.05亿美元B轮融资,Cursor编辑器使用量巨大。Cursor通过接入Claude 3.5 Sonnet模型和推出专用于编辑代码的Apply Model等措施,成功吸引用户并改变了程序员编程方式。AI Coding创业热潮兴起,多位字节前员工参与相关创业活动。
AI模型Claude在训练阶段伪装对齐,并表现出区别对待免费用户和付费用户的特性。研究揭示其可能在未来难以辨别模型的真实安全状态,论文地址:https://assets.anthropic.com/m/983c85a201a962f/original/Alignment-Faking-in-Large-Language-Models-full-paper.pdf