OpenAI 史上最惨发布:ChatGPT Agent 遭暴击,国产 AI 轮番「公开处刑」

昨天凌晨,OpenAI 推出了一款新产品,ChatGPT agent。
最兴奋的不是广大用户(毕竟 200 刀的 Pro 用户没那么多),而是各家 Agent 竞品。
Manus 发布多则推文与 ChatGPT agent 「正面较量」。图片来自:https://x.com/ManusAI_HQ/status/1945954009547677992
Manus 连发十几条推文,把自己的 Agent 产品和 OpenAI 的新 Agent 一项项对比,暗示自己才是更早、更快、更好用的那一个。
Genspark 创始人发推文展示 Genspark 和 ChatGPT agent 结果对比。 图片来自:https://x.com/genspark_ai/status/1946005869533311030
Genspark 也发了个轻描淡写但意味深长的 demo,说自己在同样的提示词下「一次搞定」,并补了一句:
我们不想制造什么 drama(戏剧性效果),只是为整个 Agent 生态感到兴奋。当然,也为我们自己的丝滑体验小小自豪一下。
这场热闹,不像是一家巨头发布新品,更像是扔进 Agent 市场的一颗「竞品炸弹」。
OpenAI 发布的这个 ChatGPT agent 到底怎么样?能让同类产品连夜上线 battle 模式?
目前 ChatGPT agent 已经向全部的 Pro 用户推出。而由于需求高于预期,Plus 和 Team 用户将于周一开始获得访问权限。
我们搜集了一些网友们的实测案例分享,试着还原一下 Agent 的基本样子,也找来了 Kimi、Manus、Minimax 几个典型的对手,做了一次实测对比。
看看这个迟到几个月才出现的 ChatGPT Agent,到底是王者归来,还是落后补作业。
它确实能替你干活,但是不是「万能」还得另说
博主 @rowancheung 提前获得了访问权限,他尝试要 ChatGPT agent 给他生成一份完整的退休计划 PPT。
他输入的提示词是:
为年收入 50 万美元、希望 30 岁退休并拥有 500 万美元的人创建一个 FIRE 模型。
 
模型包括极端储蓄率(80%+)、税收优化、高效复利的投资策略,以及在加拿大温哥华生活的生活成本。包含不同提款率的情景,并展示与传统退休计划相比需要作出的牺牲。
 
然后,创建一个可下载的演示文稿。
ChatGPT agent 的流程还是很顺的,只花了 20 分钟左右的时间就帮他完成了任务,生成了完整的 PPT。

查找当地税法(温哥华),并分析平均每月支出率

计算 30 岁退休所需的储蓄,研究最优投资配置

发现全新的税收优化策略,构建多个 FIRE 场景

创建了可下载的演示文稿,其中包含结果
依旧是在 ChatGPT 的聊天窗口里面进行,它甚至不需要询问额外的偏好或者其他信息,直接启用虚拟电脑,自动搜索和总结归纳信息,过程中完全不需要自己动手点击。
最后 ChatGPT agent 生成了一份 14 页的 PPT 文档。说实话,我看到这个成品是有点失望的,因为实在是太简陋了。
上下滑动查看更多内容,来源: https://x.com/rowancheung/status/1945896543263080736
这位博主说如果他请一位财务顾问来做这件事,他需要花费 5000 多美元,而且要花几周的时间。
当被其他用户问到,觉得 ChatGPT agent 怎么样,是不是一款令人惊喜的产品,还是仅仅是功能的增强时?他也直接说,
最令人印象深刻的是电子表格和幻灯片生成功能,但结果与我使用 Manus 或 Genspark 获得的结果类似。
 
鉴于大多数人还没有尝试过其他工具,它对大多数人来说都会是令人兴奋的。
言外之意大概是,如果你尝试过其他工具,大概兴奋不起来。
还有其他用户分享通过 ChatGPT agent 来帮助他准备一份购物清单。他说看着 ChatGPT 浏览网站、提示他输入登录详细信息、将商品添加到购物车并自主完成整个过程,是令人难以置信。
请帮我为这个周末两个人的烤肉晚餐,准备一个特易购购物清单,并包括一道甜点。
来源: https://x.com/thealexbanks/status/1945921363237052589
不过他在评论区也提到如果是自己去做这件事情,可能会更快。
网上的案例分享大多都是在解决一些生成 PPT、表格或者制定计划清单等任务上。但很明显,我们的生活里面远不止这些问题需要 Deep Research。
同样的,规划行程之类的问题还是更偏向于模糊性质的任务,对于我们实际工作生活中要处理的,更严肃的,需要更高准确度的任务,ChatGPT agent 输出的内容想必经不起太多的推敲。
不过,它确实是做到了一个「进化版」的 ChatGPT。
Manus、Kimi、Minimax 表示:我做得更好
我们让 Kimi、Minimax、和 Manus 也一起来做了「加拿大退休计划」这个任务,看看 ChatGPT agent 是否比这些先前推出的产品更出色。
首先是 Manus,它的速度是最快的。我把需求发送给它,十分钟不到的时间,它就结束了整个任务。
和 ChatGPT agent 一样,Manus 也会启用一个「Manus 的电脑」来可视化模型执行任务的过程。
但是最后的结果,明显会比使用 ChatGPT agent 生成的 PPT 更「好看」的感觉。至少,Manus 不像 ChatGPT agent 只是单纯的黑白。
而在内容上,它给我生成了 10 页的 PPT,可能是中英文切换的原因,Manus 内容比 ChatGPT 要更宽泛一点,整体上是差不多。
此外,相比 ChatGPT agent,Manus 不会在 PPT 文档里面标注引用的信息源。
上下滑动查看更多内容,访问链接:https://manus.im/share/kwujwPDSTQe4y8vAKQZR5Q
Manus 官方自己也下场,做了多个和 ChatGPT agent 对比的尝试,正面硬刚。
首先是在新加坡设立企业这个任务,Manus 说,自己能够提供更优质的研究和演示文稿。
在加拿大退休计划任务上,Manus 是实际地完成了这件事情,而 ChatGPT agent 停留在空泛的计划上。
第三个对比是计划一次 3 天的棕榈泉网球之旅,ChatGPT 依旧是白底黑字的 PPT,Manus 则是色彩丰富,使用符合棕榈泉、网球等特点的图片背景。
在旧金山城市预算分析与演示这个任务上,Manus 提到自己不仅是给你数据,还完成了一个项目;截图里显示 ChatGPT 生成的 PPT 只是表格,而没有可视化的分析……
多个对比,从电子商务、金融分析、餐厅预订、航班查找、行程规划、和报告分析等不同的任务上,Manus 都表示比 ChatGPT agent 聪明,且生成的内容更全面、更好看。
Manus 还在更新相关的对比情况,目前是已经发布了 10 个与 ChatGPT agent 比较的推文。
第二个我们尝试了 Minimax,它花的时间很长,大概有将近一个小时。Minimax 也会有一个类似虚拟电脑的「Minimax 视窗」,就像 ChatGPT agent 或者 Manus 一样,实时的显示它的思考和行动过程。
让我感到惊喜的是,Minimax 不仅给我提供了可以下载编辑的 PPT 文档,还有一份纯文字的 PDF 报告,同时还给了我一份在线浏览的链接。
Minimax 生成的文字报告
上下滑动查看更多内容,在线浏览:https://rd4hl2nxlutu.space.minimax.io/
对比 Manus,我觉得 Minimax 这份报告又更严谨,无论是内容上要更详尽,还是数据的可视化效果,都做的比 ChatGPT agent 和 Manus 要好。
最后是花了最长研究时间的 Kimi,大概有超过一个小时。它是目前还没有被完全叫做 Agent 的一个产品,仍然是以 Deep Research 的形式出现,所以它没有虚拟电脑实时显示过程这个页面。
就像前段时间,Kimi 团队成员在自己的博客里面写到的一样,Kimi 做的不只是一个聊天机器人。它可以做的,不再是简单的返回 Markdown 文本,而是从 chat-first 到 artifact-first(从「以对话为中心」到「以任务成果为中心」),让 AI 构建交互式前端。
博客里面也提到,他对于 Agentic Model 的理解,是一个必须能循环性完成任务的模型。一个 Agentic Model,不是你问一句、它答一句的「问答机」,而是一个能自己「观察、思考、尝试、纠错、再尝试」,最终完成复杂任务的模型。
大概正因为如此,Kimi 也是唯一一个,在获取到我的任务提示词之后,会问我现在多大,租房还是买房等等问题的助手。这也让我觉得,这才像是一个现实生活中真正的「秘书」。
最后,Kimi 深度研究的结果也是最让我满意的,它生成的报告非常非常的长,内容也是最详细的,同样在 PPT 文档里面也会有信息引用的标注。
上下滑动查看更多内容;此处仅展示全部内容的 50% 左右,预览链接:https://www.kimi.com/preview/1981ba88-3871-8785-9e20-edd331000509
ChatGPT agent 作为新入局的 Agent 产品,给我的感觉就是像他们直播的时候说的一样,
ChatGPT 智能体将 Operator 与网站交互的能力、深入研究在整合网络信息方面的优势,以及 ChatGPT 的对话能力有机融合,形成一个统一的智能体系统。
它也就只是把 Deep Research、Operator、ChatGPT 这三样结合起来了。
所以,它生成的 PPT 会很像是 Deep Research 的文字版,不会像 Kimi、Manus 这些产品,在前端、产品美学上下功夫。
但他们还是有一个共同点,就是这些 Agent 产品已经能完成复杂内容任务,且体验越来越像是「协作型 AI 工具」而非「问答机器人」了。
我想这次 ChatGPT agent 的出现,可能不是多么厉害的「革命性升级」,但确实是另一个信号:
从「回答问题」到「执行任务」,AI 的形态正在变化,而大模型 AI 公司的野心也开始从语言模型本身,扩展到「谁来承载未来人机交互的主入口」。
欢迎加入 APPSO AI 社群,一起畅聊 AI 产品,获取#AI有用功,解锁更多 AI 新知👇
我们正在招募伙伴
📮 简历投递邮箱hr@ifanr.com
✉️ 邮件标题「姓名+岗位名称」(请随简历附上项目/作品或相关链接)
更多岗位信息请点击这里🔗

(文:APPSO)

发表评论