DeepSeek-R2!?神秘模型惊现竞技场,真实身份引网友猜测
DeepSeek发布的新模型steve引发猜测,有人认为它可能是R2。steve被确认来自DeepSeek,但表现未达到预期。R2的研发也经历了多次延期。
DeepSeek发布的新模型steve引发猜测,有人认为它可能是R2。steve被确认来自DeepSeek,但表现未达到预期。R2的研发也经历了多次延期。
国产AI大模型‘六小虎’之一的智谱宣布获得浦东创投集团和张江集团10亿元的战略投资,并启动与上海仪电、浦发集团的合作。智谱还发布并开源新一代通用视觉语言模型GLM-4.1V-Thinking及MaaS全新上线Agent聚合平台,展示其在模型更新方面的进展。
伯格近期的一系列动作引发了轩然大波,其大力招募 AI 人才的举措,直接触动了行业巨头 OpenAI
MLNLP社区是国内外知名的机器学习与自然语言处理社区。该文章讨论了大模型推理的冗长问题,并提出了一种名为LC-R1的方法来优化模型长度压缩,显著减少无效思考,提高效率。
一篇关于博主通过威胁猫猫命运成功治理AI胡编乱造参考文献问题的文章,获得了大量点赞和评论。然而,使用这种方法测试DeepSeek发现其表现并不理想,依然存在错误的文献链接。文章探讨了如何降低人工智能生成内容中的幻觉现象。
华为开源Omni-Infer项目,提供超大规模MoE模型推理的框架和加速套件。支持昇腾硬件平台上的大模型推理,并实现PD分离自动化部署,简化使用环境与安装流程。
老刘说NLP技术社区致力于通过早报、专题分享和线上活动等方式,围绕大模型、RAG、文档智能及知识图谱等主题进行技术交流。目前已有43次线上分享和技术专题文章,并提供会员制服务,吸引了众多成员参与。
ReAct Agent基于思考-行动-观察的智能体,核心是通过提示词操作大模型完成任务。多种提示词范式如ICL、CoT、Self-Consistency等通过不同方式注入信息以优化模型能力。
《人工智能大模型私有化部署技术实施与评价指南》团体标准正式立项,旨在解决当前企业大模型私有化部署过程中遇到的技术选型混乱、算力资源错配等痛点。该标准涵盖关键技术标准与安全治理标准,通过全流程要点覆盖(选用+部署+优化)、深度融合(技术+安全+评价+案例)及三方协作机制,推动人工智能产业高质量发展。