GPT-5终于来了!在惊喜不多的时代,它是否值得我们的等待?|

它确实更好,但没有掀起革命。


作者|田思奇

编辑|王博


北京时间8月8日凌晨1点,OpenAI正式发布新模型GPT-5。


这一次,预热格外漫长。自从2023年3月GPT-4发布后,业界就开始流传“5”的传说。OpenAI CEO萨姆·奥尔特曼(Sam Altman)近日又在播客里透露,新模型强悍到让他觉得自己“毫无用途”。


然而有媒体称,OpenAI内部曾以“猎户座”(Orion)命名的新模型,曾经因为效果不够惊艳被贬为已发布的GPT-4.5。各种暗示与猜测之中,人们一次次以为它要来了,又一次次被OpenAI虚晃一枪。


现在,OpenAI用一场罕见的超长75分钟发布会,揭开了GPT-5的全部面纱。


OpenAI CEO萨姆·奥尔特曼亮相GPT-5发布会




1.聪明,不等于装懂:GPT-5更诚实了


发布会前夕,奥尔特曼在社交媒体上发布了本文封面图,图片内容疑似《星球大战》中的超级武器“死星(Death Star)”,展现了奥尔特曼对于GPT-5的野心。


根据OpenAI的说法,GPT-5是OpenAI目前最强的通用模型,在响应速度、准确率、逻辑推理和人类语气方面全面进化。


GPT-5将在发布当日成为ChatGPT的默认模型,下周将发布企业版和教育版,用户无需在不同版本之间切换。它面向所有人开放,Plus会员可获得更多使用量,Pro 会员可访问GPT-5 Pro版本,免费用户在配额使用完后将被分配到GPT-5 mini模型。


ChatGPT Plus会员的最新App界面


在发布会开场,奥尔特曼用了一个比喻:GPT-3和GPT-4更像是高中生和大学生,而GPT-5则像在任何领域都拥有博士学位的专家。他强调,GPT-5“快得让人怀疑它是否真的思考过,但它确实在思考”,这句话也成为许多现场工程师反复引用的评价。


“快”和“思考”之间的张力,体现了GPT-5这次更新的核心。用户以往只能在标准GPT的快速响应和推理模型缓慢又深思熟虑的响应之间做出选择。但GPT-5消除了这种选择。它的目标是以最合适的程度思考,给出完美的答案。


SWE-Bench测试中的分数变化,则是GPT-5推理能力增强的直观证据。在这项针对真实编程任务解决能力的评测中,具备“思考能力”的GPT-5得分相比前一代模型有显著跃升。



但眼尖的读者一定很快发现,上图左侧柱状图中的52.8与69.1,30.8的绘图比例与实际不符。这也迅速遭到很多网友吐槽称,表格难道是GPT-5画的?「甲子光年」注意到,该表格在OpenAI公司官网介绍GPT-5的发布会后通稿中得到修正。


编程并非唯一的强项。在演示环节,OpenAI着重强调了GPT-5在写作、代码生成和健康建议这三类典型使用场景中的表现。这些领域是ChatGPT过去两年最常被用到的部分。


比如写作能力。GPT-5可以根据模糊提示,生成不同风格的段落,包括不押韵的抑扬格五音步诗歌、结构松散的自由体诗,或者以任意视角重新构造祝酒词。


与GPT-4o对比来看,GPT-5的语言节奏感明显更强,对文学形式的掌握也更加自然。但它也没有改掉旧毛病——破折号的使用依旧略显频繁,这或许也说明:GPT-5距离真正掌握“语言的分寸感”,还有一步之遥。



另据OpenAI介绍,GPT-5只需简单的一次性提示就能创建美观且响应迅速的网站、应用程序和游戏,并兼具美感,直观而优雅地将创意转化为现实。而且测试人员也注意到它独特的设计取向:GPT-5对间距、排版和留白等方面都有了更深入的理解。以下为GPT-5制作的小游戏,点击球就可以让它弹跳。



除编程以外,GPT-5在多模态推理和数学推理方面也有进步,MMMU和AIME(美国数学邀请赛)测试得分均创历代模型新高。



如果要求该模型解释伯努利效应,GPT-5的响应速度也非常快。不过,后续要求GPT-5创建视觉效果时,OpenAI解释说,它的响应时间会稍长一些,但很快便提供了远超以往的视觉呈现。



另一个GPT-5的演示展示了其代码能力。它在短短几分钟内就编写了超过200行代码,在发布会当场创建了一个网站,其中包含许多视觉元素,甚至还有音频元素,可以帮助人们与同伴一起学习法语。



在医疗领域,HealthBench Hard基准测试显示,GPT-5在各类医学问答中的正确率远超前几代模型。不仅如此,它的表达也更清晰、条理性更强。


一位真实用户在发布会现场讲述了自己在一周内被诊断出三种癌症后,第一时间将确诊邮件截图上传至ChatGPT,并从GPT-5处获得通俗、温和、带有情感温度的解释。OpenAI认为,GPT-5可以为病人们“重新带来一点点自主权”。



幻觉控制,始终是每一代GPT绕不开的问题。GPT-5也在这一方面做出了显著优化,尤其是在健康问答等对“事实准确性”要求极高的领域。根据测试数据,它在具备思考能力的情况下,输出包含事实错误的概率比GPT-o3低约80%,比GPT-4o低约45%。



而且,它在面对“无法回答”或“问题本身存在缺陷”的情况时,更愿意坦率承认自己的局限。比如CharXiv测试中,当研究人员移除所有图像后,GPT-5给出“自信回答”的比例只有9%,而GPT-o3还高达86.7%。



与此同时,GPT-5也变得更“听话”了。在测试其指令遵循和多工具协调能力的基准中,GPT-5能更稳定地执行多步骤请求,在不断变化的环境中自适应反应。它不仅执行得更准,也能在必要时主动调用多个工具,实现更复杂的任务闭环。比如,它能在识别任务无法完成时,坦率说明原因,而不是像以往那样试图“自圆其说”。



效率方面的优化也令人惊喜。OpenAI的评估显示,GPT-5在解决研究生级别科学问题、视觉推理或复杂代理任务时,所用token数量较以往减少50%至80%,对开发者是直接利好。



另一个微妙的变化,是GPT-5在更新后的语音交互演示中表现出了极高的理解精度。在一段展示中,它被要求仅用一个词概括《傲慢与偏见》这本书,它给出的答案是:“Relationships(关系)”。


当然,技术演示之外,安全机制的升级是GPT-5最被强调但最容易被忽略的一部分。过去的ChatGPT主要依赖拒绝式训练,即模型面对敏感请求要学会说“不”。但这种方式在面对模糊或中性请求时容易出现误伤。


GPT-5采用的是一种新的安全补全(safe completions)机制:在保证不越界的前提下,尽可能回答用户问题。如果必须拒答,也会附带明确解释,并提供可替代的信息路径。


从上面的演示可以看出,GPT-5的前端UI设计也有明显变化——不仅整体响应更快、内容呈现更清晰,现在用户还可以自定义聊天框的颜色。



不过,也有网友调侃说,这场更新仿佛越来越接近“苹果式发布会”:一个渐进的系统升级,一些新添的可视化功能,甚至连颜色都成了亮点。


于是问题来了:


当“更强”不一定意味着“震撼全场”和“一夜刷新”,我们为什么还愿意期待GPT-5?




2.革命不再,曲线仍在


GPT-5带来的整体感受,与两位参与早期测试的工程师此前对路透社的评价如出一辙:确实更强,但并不颠覆。此前很多媒体报道显示,GPT-5在编码和科学问题解决上的能力令人印象深刻,但从GPT-4到GPT-5的提升,远不如2023年GPT-3到GPT-4的跨越。


知名人工智能专家盖瑞·马库斯(Gary Marcus)此前撰文称,GPT-5在细节层面可能优于GPT-4,但它仍是一个“放大器”——放大语言生成能力,也放大幻觉和语义偏差的风险。它不是一个真正具备“结构性推理能力”的通用智能,这和他三年前对尚未发布的GPT-4观感一致。


除了进步缓慢的质疑,另一个令人不安的信号是模型“性能衰减”的趋势。人工智能指标初创公司Penrose的研究员Yunyu Lin最近发现,包括OpenAI的o3和o4 mini在内的多个大型语言模型会随着时间的推移而退化——即使是在它们所谓的专业领域——基础数学方面。这意味着,模型即便在初期看起来强大,也可能在真实任务中“逐渐退化”。


模型评估与威胁研究组织(METR)主导的研究进一步印证了这种担忧。研究团队让16位资深开发者使用Claude、Cursor Pro等主流AI工具完成246个实际开源项目任务。结果显示,尽管AI降低了编码阶段的耗时,但因提示构建、建议审查与错误调试而导致的整体耗时反而增加了19%。AI节省了输入,却增加了上下文管理的负担。


Mayfield基金合伙人纳文・查达就表示,人们不满足于“更聪明的聊天机器人”,而是希望GPT-5能解锁“自主执行任务”的能力。但从目前公开的信息来看,这一目标或许还需要更多时间。


这些反馈背后,都隐藏着深深的焦虑:GPT系列,已经走到了“难以再有飞跃”的阶段。


但OpenAI显然不认为GPT-5是终点。相反,奥尔特曼在今年6月发布的博客文章《温和的奇点》中,勾勒了未来的时间轴:2025年诞生可胜任认知工作的AI代理,2026年具备原创能力的系统上线,2027年出现可现实执行任务的机器人。到2030年,个人的生产力将远超2020年。


GPT-5或许没有让人眼前一亮的突破,但它必须让人相信:进展依然在发生,下一步仍有可能。这就是人们的期待。


从GPT-3到GPT-5,OpenAI用了五年时间走完了别人十年的路。最新有媒体透露,公司正在以5000亿美元估值筹划员工股份的二次出售;而另一边,Claude、Gemini、Grok等竞争者正在围绕开源、多模态与更强的推理能力展开缠斗,试图抢夺未来AI平台的话语权。


或许,奥尔特曼博客中的那句话,更能概括GPT-5所处的位置:“技术进步的长弧,向前看是垂直的,向后看是平坦的,但它始终是一条平滑的曲线。”


GPT-5,不是终点,也不是最高光时刻,而是在这条曲线上,一个必须被踩实的节点。


封面图及文章图片来源:OpenAI)




(文:甲子光年)

发表评论