重拾当年“AlphaGo围棋”乐趣,谷歌推出模型竞技平台,让各路AI下棋玩游戏一较高下!
谷歌DeepMind推出Kaggle Game Arena平台,让全球顶尖AI模型在战略游戏中竞技。首场较量将在8月5日进行,包括Anthropic、OpenAI等多家公司的模型将参与比赛,旨在提供客观且不断进化的评估基准。
谷歌DeepMind推出Kaggle Game Arena平台,让全球顶尖AI模型在战略游戏中竞技。首场较量将在8月5日进行,包括Anthropic、OpenAI等多家公司的模型将参与比赛,旨在提供客观且不断进化的评估基准。
Perplexity联合创始人Aravind Srinivas宣布Kimi K2加入其产品线,并强调了实时响应和低延迟的重要性。作为AI搜索领域的领先者,Perplexity选择开源模型不仅看重技术实力,更注重模型在真实生产环境中的表现能力。
大模型被攻击后数学能力骤降,猫猫成了‘罪魁祸首’。研究发现,通过在问题中加入有关猫的事实或对话术改变问题语义,推理模型的错误率大幅增加。
出门问问发布全球首款AI硬件产品TicNote,厚度仅3mm,支持智能体AI技术。售价999-1499元。李志飞表示公司转型形成‘超级个体’结构,用一个硬件工程师就能做一款硬件产品。未来将推出更多AI硬件和软件应用。
编程新王DeepSeek-R1成功晋级,与Gemini 2.5 Pro、Claude Opus 4并列第一。AI领域进展迅速,OpenAI仍占主导地位,谷歌和Meta也有增长机会。
MLNLP社区介绍其致力于促进国内外自然语言处理领域的交流合作,Magistral通过纯强化学习训练提高解题能力,成果包括在AIME数学竞赛上的显著提升,在多种场景下的表现及未来研究方向的探索。
国内和国外的大模型在解答题考试中表现各异,豆包Seed1.5、混元T1、讯飞星火X1和Gemini 2.5 pro表现出色,得分满分;Qwen3及格,DeepSeek因超时得0分。
最新优化版DeepSeek-R1(0528)在编程榜单aider上取得了60%的成绩,超过Claude 4 Sonnet和1月版的满血R1。同时,1.93bit版本R1相比原始版8bit减少了70%以上的文件大小,并且能够在较小的内存条件下运行游戏任务。