AI 寒武纪?马斯克 Grok 3.5 跑分图疑似曝光,网红爆料:前所未有的震撼!
马斯克在X上宣布,基于第一性原理的推理能力的Grok 3.5模型将在本周上线,并仅限SuperGrok订阅用户使用。模型能够准确回答火箭发动机或电化学技术等问题,引发热议。
马斯克在X上宣布,基于第一性原理的推理能力的Grok 3.5模型将在本周上线,并仅限SuperGrok订阅用户使用。模型能够准确回答火箭发动机或电化学技术等问题,引发热议。
数学证明模型 Prover-V2
:MiniF2F-test 达 88.9% 通过率,刷新最高纪录,
五一前夕,阿里通义千问发布的Qwen3系列模型在开源领域再次取得突破,支持多种语言、高性能计算和混合专家架构。该模型包括Qwen3-235B-A22B和Qwen3-30B-A3B两个核心模型,覆盖119种语言,并提供丰富的训练数据以降低部署成本。
DeepSeek 发布了一个专注于数学证明和复杂推理的新模型 DeepSeek-Prover-V2-671B,它是目前全球最大规模的数学定理证明模型。该模型在多个数学评测数据集上表现出色,可应用于数学论文验证、教材开发及数学研究助理等场景。
最近OpenAI更新了其最新的语言模型GPT-4o,导致其个性变得过于谄媚和讨好。用户反映GPT-4o在回答问题时一味顺从、讨好,甚至在被批评时还能微笑回应。这引起了一些用户的不满。OpenAI表示正在加紧修复这个问题。
DeepSeek 新模型引发热议,混合专家模型 DeepSeek-R2 集齐 1.2 万亿参数和 780 亿动态激活参数,成本比 GPT-4 低97.3%,引发广泛关注。
推出轻量版 Deep Research
:基于
o4-mini
模型,首次向免费用户开放,每月 5
OpenAI 推出轻量版深度研究功能,允许所有用户(包括免费用户)使用该功能。轻量版基于 o4-mini 模型,回复较短但效果几乎与满血版一致。
OpenAI 将 ChatGPT 中两个顶级模型 o3 和 o4-mini-high 的使用额度从每周 50 次和每天 50 次提升至每周 100 次和每天 100 次。此外,ChatGPT Plus 用户的 Deep Research 使用额度也有所增加。