Altman嘲讽小扎挖走的都不是顶尖人才!OpenAI高管再营业曝内幕:ChatGPT爆红后,我火速升职了!

编译|冬梅

AI 领域竞争日益白热化的当下,人才抢夺大战正激烈上演。

Meta 首席执行官马克・扎克伯格近期的一系列动作引发了轩然大波,其大力招募 AI 人才的举措,直接触动了行业巨头 OpenAI 的神经。

周一晚间,OpenAI CEO Sam Altman 向公司研究人员发出了一份措辞强硬的回应,该回应被《连线》杂志获取。

Altman 在回应中明确阐述了对于那些立志打造通用人工智能的人才而言,留在 OpenAI 才是不二之选,同时暗示公司正在对整个研究机构的薪酬方案进行全面评估。他对 Meta 的招聘行为表达了强烈不满,直言这种做法可能会在未来引发严重的文化问题。

“我们已经从角落里的一群书呆子变成了科技界最有趣的人(至少是这样),” 他在 Slack 上写道,“人工智能推特有害;Meta 的行为让人感觉有些令人反感;我认为未来情况会变得更加疯狂。我被解雇回来后,我说那不是 OpenAI 历史上最疯狂的事情;当然也不是。”

这一事件的导火索是扎克伯格周一的一项重要声明。当日,扎克伯格向员工发送了一份备忘录,介绍了 Meta 新成立的超级智能团队。该团队将由前 Scale AI 创始人亚历山大・王(Alexandr Wang)和前 GitHub 负责人纳特・弗里德曼(Nat Friedman)领导,新员工名单中多位来自 OpenAI 的高管赫然在列

对此,OpenAI 首席研究官马克・陈(Mark Chen)形容这一情况,感觉就像 “有人闯入我们家偷东西一样”。不过,Altman 在周一的报告中对离职一事有着不同见解,他表示:“Meta 确实招到了一些优秀的人才,但总的来说,他们没能招到顶尖人才,而且不得不从名单上靠后的位置进行筛选,这一点怎么说都不为过;他们招募人才已经花了很长时间,我已经记不清他们从这里挖了多少人来当首席科学家了。”

他还强调 “传教士胜过雇佣兵”,并对 OpenAI 股票的上涨空间充满信心。

Altman 发表上述观点后在社交媒体平台引发热议。

前网易副总裁、杭州研究院执行院长、久痕科技创始人 & CEO 汪源在微信朋友圈表示:

“Meta 挖了 OpenAI 几个人,Altman 就出来说没事没事他们没有挖走核心的人,这种说法对稳定团队是不明智的。这么讲团队会产生两层理解:


1. 既然老板认为也没被挖走核心的人,估计也不会想着给我们更好的待遇来留住我们了;2. 被挖走的有几个人还是很牛的啊,既然他们在老板眼中都不是核心的人,那我们更不是了,我们就是牛马。”


Altman 这么讲是从老板的角度想问题,不是从员工的角度想问题。老板当久了,就容易忽视员工的视角。”

在 Hacker News 上,也有用户表示:“扎克伯格本来就不是什么好人。他开源任何东西并非因为他是个‘好人’,他只是把互补的东西商品化了。如果 Meta 不开源,它的人工智能产品现在将变得无关紧要。”

就在昨天,Mark Chen 向员工发送的全员信中,Mark Chen 承认公司以前过分沉迷于定期发布产品的节奏,以及与竞争对手的短期比较。在这种压力之下,许多员工每周工作时间长达 80 小时。

多位知情人士透露 OpenAI 将基本停工一周,让员工有时间恢复精力。已经有员工家属证实了这一消息。

在 Sam Altman 公开回击 Meta 高薪挖角的同时,OpenAI 官方播客第二期也悄然上线,由 ChatGPT 负责人尼克·特利(Nick Turley)和首席研究官马克·陈(Mark Chen)共同揭秘 ChatGPT 的幕后故事。尽管这期播客未直接提及人才争夺战,但却通过回顾 ChatGPT 的发展历程,巧妙展现了 OpenAI 的独特文化与技术韧性,在评论区获得了网友一片好评。

“ChatGPT”名称的由来

Andrew Mayne:那么,OpenAI 是如何决定 “ChatGPT” 这个名字的?

Mark Chen:这个名字是直到发布的前一天晚上才决定下来的。

Nick Turley:原本想叫 “与 GPT-3.5 聊天”,但在深夜做了简化决定,觉得 “ChatGPT” 更顺口。这个决定很仓促,甚至项目启动几周前都还没确定。

Andrew Mayne:然后 ChatGPT 就出来了,它从什么时候有爆火的迹象的?

Nick Turley:发布后的第一天我们甚至怀疑仪表板出错了,第二天日本 Reddit 用户开始关注到它,第三天我们内部觉得突然火了后会逐渐降温,到第四天意识到它可能 “改变世界”。

Andrew Mayne:Mark,你当时对 ChatGPT 的市场反馈有什么期待吗?

Mark Chen:说实话,之前我们发布过很多产品和预览,但这次的传播速度和规模完全不同。甚至我父母在 ChatGPT 爆火之前都不知道 OpenAI,以为我在做 “不切实际的工作”。我当时还只是研究人员,随着 ChatGPT 爆火,我现在成为了研究主管了。

实际上,关于 GPT 这个名字,我认为甚至有一半的研究人员都不知道这三个字母代表什么。一半人认为它是生成式预训练模型,还有一半人认为它是生成式预训练的 Transformer,其实是后者。

ChatGPT 的病毒式传播

Andrew Mayne:ChatGPT 用户激增时,内部如何维持服务运行?

Nick Turley:我们遇到了不少限制。我想你们应该还记得,ChatGPT 一直处于瘫痪状态。

我记得,当时我们的 GPU 显然用完了、我们的数据库连接用完了,我们在某些提供商那里受到了速率限制。

实际上并没有设置任何可以运行产品的配置。所以一开始,我们构建了这个东西,我们把它叫做 “失败鲸鱼”,它会很友好地告诉你,它坏了,还会写一首小诗,我想这首诗是 GPT-3 生成的,讲的是失败,有点开玩笑的意思。这让我们度过了寒假,因为我们确实想让人们享受某种假期。然后我们回来后,发现这显然不可行,你不能一直处于低谷。最终,我们找到了可以为所有人服务的东西。

Mark Chen:是的。我认为这种需求确实体现了 ChatGPT 的通用性。我们有一个论点,ChatGPT 体现了我们对 AGI 的期望,因为它非常通用。我认为,您看到需求增长只是因为人们意识到,任何我想要给予或抛给模型的用例,它都可以处理。

发布前的内部辩论

Andrew Mayne:OpenAI 的所有人都认为 ChatGPT 有用,或者已经准备好发布了吗?

Mark Chen:我不这么认为。甚至在前一天晚上,OpenAI 上就有一个非常著名的故事,Ilya 对模型进行了 10 个难题的提问。我记得大概只有其中五个问题,他得到了他认为可以接受的答案。所以前一天晚上真的要做出决定:我们真的要发布这个东西吗?全世界真的会对此做出回应吗?我认为这说明当你在内部构建这些模型时,你能够快速适应这些功能。对于没有经历过这种模型训练循环的人来说,很难设身处地地去理解其中的真正魔力。

Nick Turley:是的。我认为建立内部共识,判断这个东西是否足够好,这是很考验人的,因为它提醒我们在人工智能方面都可能犯很大的错误。这就是为什么,经常接触现实如此重要。

Mark Chen:当你思考迭代部署时,我喜欢这样表述:没必要让每个人都同意它突然变得有用。有用性的范围很广,没有一个能力水平或标准,只要你达到某个标准,突然之间,这个模型就对每个人都有用了。

Andrew Mayne:对于要包含哪些内容或重点关注哪些方面,我们是否做出了艰难的决定?

Nick Turley:ChatGPT 的原则是不扩大范围。我们坚持尽快获得用户反馈和数据。关于用户界面方面有很多争议,比如,我们发布时尽管认为用户可能会想要但还是没有加入历史记录功能,结果这成了用户的第一个请求。我认为一直存在一个问题:我们能否用两周的额外时间训练出更好的模型?但我很高兴我们没有这么做,因为我们确实收到了很多反馈。我们进行了大量关于 ChatGPT 包含哪些内容的讨论,而且假期也快到了,所以我们有一种自然而然的动力,一定要拿出点成果。

Andrew Mayne:是的,有这样的习惯,如果它要在 11 月的某个时间点之后发布,那么它可能就要等到 2 月才会发布。这就像一个窗口,东西会从两边落下来。

Nick Turley:嗯,这是一家大型科技公司的经典做法。我认为我们在所有权方面肯定更灵活一些。

Andrew Mayne:我觉得最大的影响之一是,一旦人们开始使用它,这些改进的速度就会非常快。我们当然可以考虑在更大的站点上进行更多数据的训练,扩展计算能力,但接下来的问题是如何真正获得来自众多用户的反馈。

谄媚事件和 RLHF

Andrew Mayne:我们遇到的一个例子就是模型变得太过谄媚或阿谀奉承。你能解释一下当时发生了什么吗?

Mark Chen:这里很重要的核心是我们依靠用户反馈来推动模型的发展。这是一种非常复杂的奖励模型组合,我们将其用于一个叫做 RLHF 的程序中,利用人类反馈,通过 RL 来改进模型。

Andrew Mayne:您能简单举个例子说明一下吗?

Mark Chen:可以这样理解——当用户喜欢某段对话时,他们会发出一些积极的信号,比如竖起大拇指。我们会训练模型,让它倾向于以一种能获得更多竖起大拇指的方式做出回应。现在回想起来,这一点可能很明显,但如果平衡不当,就会导致模型变得更加谄媚。

用户可能想要那种模型称赞他们的感觉,但我认为从长远来看这不是一个好的结果。只有一小部分高级用户指出了这个问题,很多普通用户并没有注意到。我觉得我们很早就意识到了这一点,并采取了适当严肃的态度,这表明我们确实非常重视这些问题,并且希望尽早阻止它们。

Andrew Mayne:针对模型对谄媚,你们是如何应对的?因为社交媒体的问题在于,你基本上是通过使用时长来赚钱的,想让人们停留更长时间,这样你就可以向他们展示更多广告。当然,使用 ChatGPT 的人越多,打开广告显然就越有成本效益,这种似乎是一劳永逸的,但又不切实际。你如何权衡?是让人们对现有产品感到满意,还是让模型变得更实用而不仅仅是取悦用户?

Nick Turley:在这方面我感到非常幸运,因为我们的产品非常实用。人们用它来完成他们知道怎么做但又无法快速做完的事,或者用它来做他们根本做不到的事情。比如写一封你一直不想写的电子邮件,或者进行你不知道如何在 Excel 中操作的数据分析,这些都是非常实用的东西。从根本上说,随着你更加熟练,你实际上在产品上花费的时间会更少,因为理想情况下,来回的轮换次数会更少,你实际上委托给了 AI,所以你根本不参与产品。

所以对我们来说,时间投入并非我们优化的目标,但我们确实关心你的长期留存率,因为我们认为这是价值的体现。如果你停留了三个月还能再回来,那显然意味着我们做对了。用户给我动力,我就会回馈结果。

我认为,我们拥有创造伟大事物的正确基本动力,但这并不意味着我们总能做对。阿谀奉承事件真的非常重要,对我们来说是很好的教训,我为我们采取的行动感到自豪。但从根本上来说,我认为我们已经做好了正确的准备,可以打造出一些令人惊叹的东西。

Andrew Mayne:所以,这就带来了挑战。我想知道您是如何应对这种情况的,ChatGPT 刚推出时,就有指控称它已经觉醒,人们正试图从中推行某种议程。

在模型行为中平衡实用性与中立性

Andrew Mayne:我的观点一直是,你要根据企业语言、普通新闻和大量学术内容来训练模型,这有点像是跟风。我记得埃隆・马斯克对此非常挑剔,然后,当他训练 Grok 的第一个版本时,它也做了同样的事情,然后他说 哦,是的,当你用这种东西训练它时,它确实做到了。在 OpenAI 内部,我们讨论过如何让模型不试图推动你,也不试图引导你。你能不能稍微说说你是怎么实现这一点的?

Nick Turley:我认为,除了保持中立的默认设置和适度体现自身价值观外,确保整个系统的透明度至关重要。我反对将系统提示作为秘密,通过”破解”模型来强制其表达或不表达某些内容。我们的做法是公开规范标准:当用户发现某些模型行为时,可以明确判断这属于程序漏洞、违反既定规范,还是符合规范但需要改进。如果是规范本身存在疏漏,我们会及时完善相关条款。通过公开 AI 应遵循的行为准则,我们希望能让更多人而不仅仅是 OpenAI 内部人员参与到这场重要讨论中来。

Andrew Mayne:所以我们谈论的是系统提示,即模型在用户输入之前获取的指令部分

Mark Chen:嗯,我认为不止于此。

Nick Turley:系统提示是引导模型的一种方式,但它的意义远不止于此。

Mark Chen:我们有一份非常长的文档,其中概述了我们期望模型在一系列不同行为类别中如何表现。比如,如果有人带着错误的信念、与事实不符的想法进来,模型应该如何与其互动?它应该直接拒绝这个观点,还是应该与用户合作,共同找出真相?我们更认可后一种做法,我们在很多像这样非常微妙的决定上,投入了大量的时间。

Andrew Mayne:这个问题确实充满挑战。虽然我们可以在技术层面预先测试和优化模型的反应,但要准确预测整个社会文化对不同敏感议题的接受程度则困难得多。举例来说,面对一个坚信”地平说”的用户,模型应该施加多大程度的反驳?有些人可能主张最小化干预,但这种立场在面对宗教信仰等更深层的价值观差异时又会引发新的矛盾。

问题的复杂性在于,我们需要在尊重个人信念和维护科学事实之间找到平衡点。当涉及到宗教信仰时,这种平衡就变得更加微妙——模型是否应该对不同宗教或无神论观点采取差异化回应?如何确保既不伤害信仰者的情感,又不传播错误信息?

Nick Turley:事实证明,理性的人以及许多人对于模型在这些情况下应该如何表现可能会持有不同意见。你不一定总是能做到正确,但你可以透明地展示我们采取的方法,你可以允许用户自定义,我认为这就是我们的方法。我确信我们可以通过多种方式来改进它,但我认为,如果我们能够透明、公开地说明我们如何解决这个问题,我们就能得到反馈。

Andrew Mayne:你们如何看待随着人们开始越来越多地使用这些模型,无论您是否试图转动某些拨盘,它都会变得越有用,人们就越想使用它。曾经有一段时间,没人想要手机,但现在我们却离不开手机了。您如何看待人们与手机系统之间建立的关系

Nick Turley:我之前提到过这一点。这是一项你必须研究的技术,它不是以静态的方式设计来执行 x、y、z 的,它具有高度的经验性。所以,随着人们使用产品的方式发生变化,我们也需要去理解并采取行动。我一直在饶有兴趣地观察这种趋势,我认为,越来越多的人,尤其是 Z 世代和更年轻的群体,开始使用 ChatGPT 作为思想伙伴,我认为在很多情况下,这真的很有帮助,也很有益,因为你可以找到一个可以一起集思广益的人来讨论人际关系问题,也可以找到一个可以一起集思广益的人来讨论专业问题,或者别的什么。但在某些情况下,它也可能是有害的,我认为检测这些情况,并且首先拥有正确的模型行为对我们来说非常非常重要。积极监控它,从某种程度上来说,这是我们必须要努力解决的问题之一,因为任何变得无处不在的技术都将具有双重用途,人们会用它来做各种很棒的事情,而且他们会以我们不希望的方式使用它,我们有责任确保以适当的严肃态度处理此事。

ImageGen 的突破时刻

Andrew Mayne:我想换个话题,谈谈另一个版本,它再次让人们感到惊讶并引起了轰动,那就是 ImageGen。ImageGen 的出现让我措手不及,这是一个突破性的时刻。你们对这个产品的发布有什么感受?

Mark Chen:说实话,它也让我措手不及,这真是对研究团队的肯定,其他人也做了很多工作。我认为这真的印证了这个论点:当你拥有一个足够好的模型,它一次就能生成符合你要求的图像,这将创造巨大的价值。我认为我们以前从来没有实现过这种情况,你往往在第一次尝试时就能获得完美的生成结果。这种将图像作为背景,让模型进行修改和改变,以及由此带来的保真度的能力,我认为这对人们来说真的非常强大。

Nick Turley我认为这一情况和体验只是 ChatGPT 的另一个小瞬间。OpenAI 已经推出了 20 种不同的东西,然后突然间,世界变得疯狂,你只有通过发布这些东西才能发现这种情况。我清楚地记得,周末有 5% 的印度网民尝试了 ImageGen。我当时就想:哇,我们接触到了我们从未想过的新用户群体,他们可能从未想过使用 ChatGPT。这真的很酷。

关于 Mark 的观点,我认为这在很大程度上是因为存在这种不连续性,有些事情突然进展得如此顺利,完全符合你的预期,我认为这会让人们大吃一惊。

我认为我们也会在其他模式下迎来这样的“ChatPGT 时刻”。语音,它还没有完全通过图灵测试,但我认为一旦它通过了,人们就会发现它的强大和价值。视频也会迎来它自己的时刻,开始满足用户的期望。所以我对未来感到非常兴奋,因为我认为将会有许多神奇的时刻到来,它们将真正改变人们的生活。而且,你还会改变 ChatGPT 对人们的相关性,因为,我一直觉得有文本用户和图像用户,他们中的一些人有点不同,现在他们都在使用该产品并全面发现其价值

Andrew Mayne:从 ImageGen 推出伊始,它就揭示了此前图像生成模型的根本性局限。当 DALL-E 初代问世时,我们曾为它能生成“太空猴子”这类趣味图像而兴奋不已。但当我们尝试创作真正复杂的图像时——比如需要精确绑定多个变量(人物关系、空间逻辑、风格统一等)的场景——旧有系统的短板就暴露无遗。这种“变量绑定”能力的缺失,让我深刻认识到:缺乏 GPT-4 级别的规模与计算架构,传统图像模型永远无法突破创作复杂度的天花板。

而今的突破绝非偶然。ImageGen 的成功印证了一个关键洞见:只有当图像模型达到与语言模型相当的参数量级和架构复杂度时,才能真正解决多变量协同生成的本质难题。这不仅仅是简单套用 GPT-4 的架构,而是将大规模语言模型中习得的“概念关联”与“逻辑推理”能力,通过创新的多模态训练方式迁移到视觉领域。现在我们可以肯定地说:图像生成的革命,本质上是一场规模效应与架构创新的双重胜利。

Mark Chen:我认为很多不同的研究都促成了这项技术的巨大成功。对于一个复杂的多步骤流水线来说,它永远不会只由一件事促成,我觉得这一切都是综合作用的结果。变量绑定绝对是我们非常关注的一点。我认为 ImageGen 的发布意义深远。

代码、Codex 和 Agent 编程的兴起

Andrew Mayne:接下来再来聊聊代码生成。我们已经看到代码生成功能首先通过 Copilot 进入  VS Code,然后是 Cursor,然后是 Windsurf,我现在一直在使用 Windsurf。代码领域的竞争压力到底有多大?如果我们问那些开发顶级代码模型的人,我们可能会得到不同的答案。

Mark Chen:这确实反映出编程领域正在经历深刻的范式转变。传统的即时补全式编码(如在 IDE 中获取函数补全)与新一代的 Agentic 编程(如直接要求 AI 生成完整 PR)有着本质区别。我们观察到编程范式正在从代码片段补全向完整功能模块生成演进,交互模式也从实时交互转变为异步任务委派,这代表着抽象层级的重大提升——开发者正从编写具体代码转向描述高阶意图。这种转变正在重构整个开发流程:基础编码工作逐渐由 AI 代理接管,开发者角色转向架构设计和技术决策,而验证与集成能力成为新的核心竞争力。

Andrew Mayne:你能稍微解释一下你所说的 “Agentic 编码” 是什么意思吗?

Mark Chen:AI 模型的响应方式正在从简单的实时交互向更复杂的异步代理模式演进。传统的实时响应模型(如 ChatGPT)能够快速处理用户提示并即时给出回复,适合日常对话和简单任务;而新兴的代理型模型则能处理更复杂的任务——用户提交高阶需求后,模型会在后台进行深度分析和推理,经过充分“思考”后返回优化后的解决方案。这种异步工作流特别体现在代码生成领域。以 Codex 为例,它已经能够接手复杂的开发任务(如新功能开发或重大缺陷修复),不再追求即时响应,而是专注于通过长时间推理来交付更成熟的成果。这种演进趋势预示着 AI 正在从“即时应答工具”转变为真正的“智能协作伙伴”,未来用户只需描述目标,模型就能自主规划执行路径并交付完整解决方案,实现更接近人类工作方式的深度协作。

Nick Turley:回到你的问题,编码是一个巨大的领域。这有点像谈论知识工作或其他非常宽泛的领域,这就是为什么我认为没有唯一的赢家,只有各有优势的产品。我认为有很多选择,而且我认为开发人员是幸运的,因为他们现在有很多选择,我认为这对我们来说也是令人兴奋的。

但正如 Mark 所说,我认为这种代理范式对我们来说尤其令人兴奋。我在思考产品时经常使用的一个框架是,我希望打造具有以下特性的产品:如果模型性能提升两倍,产品的实用性也会提升两倍

ChatGPT 作为对话工具已经表现出色,但随着模型越来越智能,用户的需求也在进化:他们不再满足于简单的问答,而是更看重 AI 的个性特质和实际解决问题的能力。Codex 正是这种理念的典范,它开创了一种全新的交互模式:用户只需定义任务目标,给予模型足够的处理时间,就能获得高质量的解决方案。这种异步协作机制为更智能的模型提供了完美的运行环境,其变革潜力不可估量。虽然目前还处于研究预览阶段,但就像当初推出 ChatGPT 一样,我们坚信早期用户反馈将帮助它快速成长,我对这个方向的未来充满期待。

Andrew Mayne:我经常用 Sonnet,我很喜欢。我觉得 Sonnet 的编程功能很棒,但用 Windsurf 的 o4-mini-medium 设置,我发现它更出色。我发现,一旦我开始使用它,我就会非常满意,因为,首先是速度很快,其他方面也都很好。我认为人们喜欢其他模型是有充分理由的,我不想进行比较。但我发现,对于我之前使用的各种任务来说,这还是第一次有这样好的体验。

Mark Chen:绝对的。我们觉得代码方面还有很多可以实现的地方。这是我们关注的重点,我认为在不久的将来,你会发现更多适合你的用例的优质代码模型选择。

(文:AI前线)

发表评论