OpenAI推出ChatGPT智能体了

在金融业工作过的朋友,应该有临时赶PPT的经历。但过去需要熬夜完成的金融分析工作,如今AI在30分钟内就能生成初稿,硅基劳动力的时代悄然来临了。


就在刚刚,OpenAI推出了一款名为ChatGPT agent的通用人工智能代理。它不再是我们熟悉的问答机器人,而是一个融合了Operator智能体的网页交互能力、Deep Research的深度信息搜集能力。个人觉得ChatGPT agent,真正意义上成为ChatGPT对话能力的统一智能体。


⋯ ⋯


萨姆·奥特曼将它描述为真正“感受AGI”的时刻,因为ChatGPT智能体代表着人工智能应用的根本性转变。


它不再满足于回答问题或生成文本,而是能够代表用户完成复杂的多步骤任务,进化为把AI从被动的工具转变为主动的执行者。


技术架构上,ChatGPT agent 整合了四种强大的工具,比如可视化浏览器、文本浏览器、运行代码任务的终端以及直接API访问,使得AI能够像人类一样操作数字环境。


ChatGPT agent 配备了内置计算机,能够在外部虚拟环境中花费15-30分钟甚至更长时间处理任务,同时提出澄清问题、即时调整策略并使用其他外部工具。用户甚至能通过一个象征性的“电脑屏幕”实时查看AI的工作流程。


执行任务时,ChatGPT智能体会以播放器的形式呈现,用户能够回看AI浏览网页和执行操作的全流程。增强透明度的设计既增加了用户信任,也为过程监督提供了可能。


⋯ ⋯


花了点时间看了发布会内容,在产品演示过程中,OpenAI展示了该智能体处理各种复杂任务的能力。一个案例是根据结婚请柬上的日期、地点和着装要求,搜索合适的男装和鞋子,并推荐礼物。经过10分钟的努力,智能体如期完成了搜索工作,并列出了所有推荐商品及购买链接。


另一个案例则更加复杂,智能体被要求根据美国职业棒球大联盟赛程。然后规划一条在2025赛季常规赛期间,走遍全美30座大联盟棒球队的观赛路线,推荐酒店住宿。最后以电子表格形式呈现并生成可视化路线图,惊讶的是ChatGPT agent 很快完成了既定的任务目标。


智能体在工作中的场景应用更令人印象深刻,在制作PPT的演示中,OpenAI让智能体调用网盘里的模型基准测试结果生成演示图片。


金融领域的能力尤其突出,智能体能够处理原本需要1-3年经验的投资银行分析师才能完成的任务。


电子表格处理方面,ChatGPT智能体在SpreadsheetBench平台上创下了45.5%的得分率,远超市面上Excel Copilot的20.0%表现。换句话说就是,AI处理现实世界电子表格任务的能力已经超越现有商业工具。


⋯ ⋯


支撑这些能力的是ChatGPT智能体在多项基准测试中的突破性表现,Humanity’s Last Exam 综合性测试中,该模型得分率达到41.6%,是之前OpenAI模型得分两倍之多。


极具挑战性的FrontierMath数学测试中,当ChatGPT智能体能够访问工具时。它的得分高达27.4%,而此前的最佳分数仅为6.3%,展示了智能体利用工具解决复杂问题的能力。


衡量网络浏览能力的BrowseComp基准测试上,该模型以68.9的成绩创下了新的记录。


DSBench数据科学测试中,其表现甚至超过了人类水平,为智能体处理现实世界任务奠定了技术基础。


OpenAI产品经理Neel Ajjarpu点明了价值所在:“这个模型实际上非常适合处理新人入行第一年或第二年财务分析类型的工作,这些任务过去可能需要一个人熬夜完成,尤其是在深夜被老板临时叫去处理的时候”。


尽管能力出众,OpenAI也为这个“AI同事”设置了明确边界。能否让ChatGPT智能体直接炒股的问题上,OpenAI明确表示这类操作暂时受到限制,我认为主要是为了避免AI出错导致高额损失。


(一)执行敏感操作时,智能体会明确征求用户授权。特别值得注意的是,当用户使用ChatGPT智能体访问金融网站时,不能离开当前标签页,否则工具会立即停止运作,“操作沙盒”设计体现了安全优先的理念。


(二)技术层面,当前版本仍处于早期阶段。虽然能够处理多种复杂任务,但生成的内容在格式和细节处理上可能显得较为粗糙,尤其是在没有现有文档模板的情况下创建幻灯片时。目前用户能够上传现有电子表格供编辑,但此功能尚未扩展到PPT领域。


(三)OpenAI也试图回避有关,抢微软PowerPoint、Excel生意的说法,强调AI只是帮助生成初稿,用户仍需使用传统办公软件进行精细编辑。


这既是对合作伙伴的尊重,也是对当前技术局限的客观认识。


ChatGPT智能体采用分层订阅模式提供服务,每月支付200美元的Pro用户每月能执行400次任务,而其他付费用户每月可执行40次任务。Pro用户的任务执行次数会更多一些,显示OpenAI在测试不同商业模式。


更广阔的视角看,ChatGPT智能体代表了AI行业向“代理时代”的集体转向。就在最近埃隆·马斯克的xAI推出了Grok 4,其功能允许多个AI代理作为“学习小组”工作。


初创公司Perplexity AI也推出了能在购物、日程安排等方面采取行动的Comet网络浏览器。


⋯ ⋯


智能体也将重新定义白领工作,当AI能够处理入门级金融分析师的任务时,人类工作者必须转向更高阶的创造性、战略性工作。


带来的直接影响就是导致职业结构重组,比如初级岗位减少,但对高级分析师的需求可能增加,因为资本家需要监督和优化AI工作成果。


Sam Altman在东京的一次活动中曾预估:“这个系统能够实现1%到10%的全球重要经济任务。” 目前来看,这一预测正在成为现实。随着AI代理能力的持续进化,我们很快会看到更复杂的任务被自动化,从而进一步重塑劳动力市场格局。


⋯ ⋯


科技带来的改变是螺旋上升的,提高认知维度就变得十分重要了。金融机构已经开始重新评估初级分析师的招聘计划,投资银行也悄悄缩减了明年应届毕业生的招聘名额,转而增加AI智能体使用预算。


科技服务于生活,有人的参与已经在变得鲜活起来。正如OpenAI在演示中展示的那样,当智能体为一场盛大婚礼推荐服装与礼物,或为棒球迷规划覆盖全美30个球场的观赛之旅时,它处理的不仅是数据,更是人类生活中的重要时刻。


数字同事ChatGPT agent不领薪水、不会疲倦,却也缺乏真正的人类判断。它带来的不是取代,而是重构我们的工作方式、时间分配和价值定义。


ps 对科技和金融感兴趣的同学联系我交流:TMTpm007

(文:陳寳)

发表评论