国产大模型参加数学高考,第一名却是他俩
今年高考,数学难度引起热议。为此,多家国产大模型参加了全国卷一的数学测试。结果显示,部分大模型表现亮眼,如豆包Seed1.5、智谱Z1满分通过;而Qwen3和千问Kimi等表现不佳。测试旨在考察大模型在深度问题上的能力。
今年高考,数学难度引起热议。为此,多家国产大模型参加了全国卷一的数学测试。结果显示,部分大模型表现亮眼,如豆包Seed1.5、智谱Z1满分通过;而Qwen3和千问Kimi等表现不佳。测试旨在考察大模型在深度问题上的能力。
国内和国外的大模型在解答题考试中表现各异,豆包Seed1.5、混元T1、讯飞星火X1和Gemini 2.5 pro表现出色,得分满分;Qwen3及格,DeepSeek因超时得0分。
第24期AI产品榜·网站榜发布,包含18个AI榜单,涵盖全球总榜、国内总榜等多维度。ChatGPT超越海外社交媒体X成为全球首个超级应用。Google的NotebookLM排名第二十一,增速34.27%;Wanderboat等三款新产品增速显著。AI产品榜提供数据分析和自我定位平台,助力投资人、创始人及普通用户了解AI技术应用。
最近天工AI(skywork)颇受关注。本次测试涉及Word、Excel和PPT三个维度,通过与WPS手搓文件对比,验证其效率及质量。结果显示,在效率上,天工表现亮眼;在质量方面,仍需优化。总体来看,针对简单且有现成模板的任务,天工优于手工,适用于大量数据处理和调查研究场景。
本期AI产品榜发布了一系列数据,包括全球、国内和出海市场的产品MAU、订阅收入等。其中ChatGPT的订阅收入增长显著,年化增速达14.38%,马斯克的Grok增长13.84%。昆仑万维旗下的天工AI增速最快,达到711万月活用户,百度网盘和夸克也表现优异。总体来看,AI产品榜单受到了创业者的关注与好评。
临近下班时,DeepSeek发布了一则通知,宣布其R1模型完成小版本试升级,并邀请开发者进行测试。实测显示,新版本具有强大的编程能力及高级感的设计,能够快速生成各种前端界面和计算工具。总体而言,DeepSeek-R1-0528的性能表现超出了Claude 4和Gemini 2.5 pro的表现水平。
文章介绍了豆包上线视频通话功能后带来的五大优势,包括提升交互体验、能看懂万千世界、实测问题解答等,并分析了其背后的技术原理和应用场景。通过「眼睛+耳朵」的能力,AI与人的互动进入新阶段,更加实用且有人情味。