沃垠AI

国产大模型参加数学高考，第一名却是他俩

2025年6月11日14时作者沃垠AI

今年高考，数学难度引起热议。为此，多家国产大模型参加了全国卷一的数学测试。结果显示，部分大模型表现亮眼，如豆包Seed1.5、智谱Z1满分通过；而Qwen3和千问Kimi等表现不佳。测试旨在考察大模型在深度问题上的能力。

分类分享标签 Qwen3、千问3、思考过多、智谱Z1、满分、豆包Seed1.5 发表评论

让AI做高考数学最难的解答题，这4家拿到满分

2025年6月11日14时作者沃垠AI

国内和国外的大模型在解答题考试中表现各异，豆包Seed1.5、混元T1、讯飞星火X1和Gemini 2.5 pro表现出色，得分满分；Qwen3及格，DeepSeek因超时得0分。

分类分享标签 DeepSeek、 DeepSeek-R1、 GPT o4-mini、混元T1、讯飞星火X1、豆包Seed1.5 发表评论

ChatGPT登顶全球第一，双端第一｜AI产品榜·网站

2025年6月10日14时作者沃垠AI

第24期AI产品榜·网站榜发布，包含18个AI榜单，涵盖全球总榜、国内总榜等多维度。ChatGPT超越海外社交媒体X成为全球首个超级应用。Google的NotebookLM排名第二十一，增速34.27%；Wanderboat等三款新产品增速显著。AI产品榜提供数据分析和自我定位平台，助力投资人、创始人及普通用户了解AI技术应用。

分类分享标签 AI产品榜、 ChatGPT、 Google NotebookLM、 knowt、 Wanderboat、全球总榜发表评论

一手实测地产首个Agent，实话说：不错！

2025年6月6日14时作者沃垠AI

t，无论大厂、小创，都在疯狂涌入这个赛道。
Agent
一词，最早来源于拉丁语Agere，意思是”

分类分享标签 CRIC深度智联、市场趋势、房地产、数据支持、易居中国、智能分析发表评论

大火的天工Agent，到底是真干活还是走过场？

2025年6月5日14时作者沃垠AI

最近天工AI（skywork）颇受关注。本次测试涉及Word、Excel和PPT三个维度，通过与WPS手搓文件对比，验证其效率及质量。结果显示，在效率上，天工表现亮眼；在质量方面，仍需优化。总体来看，针对简单且有现成模板的任务，天工优于手工，适用于大量数据处理和调查研究场景。

分类分享标签 Excel表格、 PPT幻灯片、 Word文档、天工AI、旅游规划、简历生成发表评论

2025年最新AI吸金榜TOP 25出炉，谁在闷声赚大钱？ChatGPT月活超过X｜AI产品榜·APP

2025年6月5日14时作者沃垠AI

本期AI产品榜发布了一系列数据，包括全球、国内和出海市场的产品MAU、订阅收入等。其中ChatGPT的订阅收入增长显著，年化增速达14.38%，马斯克的Grok增长13.84%。昆仑万维旗下的天工AI增速最快，达到711万月活用户，百度网盘和夸克也表现优异。总体来看，AI产品榜单受到了创业者的关注与好评。

分类分享标签 ChatGPT、 OpenAI、 PolyBuzz、夸克、百度网盘、腾讯元宝发表评论

现在的AI有意识吗？我们测了15款推理模型

2025年6月5日14时作者沃垠AI

我们从
@李继刚
处借来了一个Prompt，问遍了几乎全球所有的推理模型，看看他们的Think深度究

分类分享标签咖啡馆、数据世界、朋友拥抱、海边、迷路小孩、陪伴发表评论

实测新版DeepSeek-R1-0528，完全不输Claude 4

2025年5月29日14时作者沃垠AI

临近下班时，DeepSeek发布了一则通知，宣布其R1模型完成小版本试升级，并邀请开发者进行测试。实测显示，新版本具有强大的编程能力及高级感的设计，能够快速生成各种前端界面和计算工具。总体而言，DeepSeek-R1-0528的性能表现超出了Claude 4和Gemini 2.5 pro的表现水平。