喝点VC|红杉AI峰会Sam演讲实录:我们正在打造“你生活的核心AI订阅”

图片来源:Sequoia Capital

Z Highlights

  • 我们真正想做的,不是一个工具,而是一个能理解你整个人生背景、贯穿你所有任务与对话历史的AI系统。它将成为你生活中的核心AI订阅,就像一个始终在线、全天候不眠不休的助手。

  • 未来的AI模型不需要一次次重训,而是能直接在你完整的历史基础上进行推理。这种模型将带来全新的交互范式,让技术真正‘融入’而非‘附加’在我们的日常生活中。

  • 对很多年轻用户来说,AI早就不是搜索引擎,而是操作系统。他们习惯在AI中组织、表达、获取一切内容,这种使用方式会逐步成为多数人的主流。

Sam Altman是OpenAI的联合创始人兼CEO,在推动ChatGPT等AI产品普及方面扮演关键角色,是通往AGI路径上最具影响力的技术与产品领袖之一。本次对谈由Sequoia Capital发布,聚焦OpenAI技术与产品演进背后的战略思考。

起步与转折|从研究实验室到ChatGPT的诞生

主持人:下一位嘉宾无需介绍Sam Altman。我只想说,Sam已经三次参加我们举办的AI活动,持续分享他的想法,我们对此非常感激。所以,再次感谢你能来到这里。这正是我们当年的第一个办公室。

Sam Altman:没错,哦对,这里就是我们的第一个办公室。能回来真的很棒。2016年我就是在这儿开始的。那会儿我们刚刚请到Jensen,他说他在这里交付了第一台DGX-1系统,确实如此。现在看那台机器真的很小,真是令人惊讶。对比现在的设备……嗯,现在的机箱还是很大。不过回忆起来挺有意思的。你记得它有多重吗?他说大概70磅吧。确实挺重的,但那会儿你还真能自己搬得动。

主持人:你有没有想过,2016年的你,会在今天再次坐在这里?

Sam Altman:呃,不。当时我们就十四个人,坐在那里研究这个新系统。我们围着白板讨论到底该干什么,其实毫无头绪。我们就像一个纯研究实验室,没有方向,没有信念,也没有行动路径。那时候不仅做产品或创公司听起来不可思议,就连像LLM这样的项目都完全遥不可及。所以我们干脆玩电子游戏打发时间。

主持人:你现在还打电子游戏吗?

Sam Altman:现在我们“打游戏”这件事做得还挺不错的。不过确实,从那时起我们花了六年时间才推出第一个真正的消费级产品,也就是ChatGPT。

主持人:你如何看待一路走来的里程碑?你是如何判断什么时候该迈出下一步?听上去更像是一连串的偶然……

Sam Altman:其实,第一个消费级产品不是ChatGPT,而是DALL·E。我们真正发布的第一个产品其实是API。那时候我们尝试了很多方向,也逐渐确认了几个真正想下注的。最终确定:“我们得搭建一个系统,看看它是不是真的有用。我们不只是想写研究论文。”于是我们试着做电子游戏,试着造机械手,也探索其他各种路径。

最初是一两个人,然后变成一个小团队,大家开始对无监督学习和语言模型特别感兴趣。这直接推动了GPT-1和GPT-2的诞生。到了GPT-3,我们感觉手上有了个非常酷的东西,但问题是我们不知道该怎么用它。然后我们意识到,如果想继续扩展下去,我们需要更多资金。GPT-3已经完成,而我们正打算推进到GPT-4。这意味着要进入价值数十亿美元的模型阶段。除非你像建粒子加速器那样投资,否则很难再靠纯科学推动这些项目。就算靠粒子加速器也未必能做得成。所以我们开始思考如何把它变成一个能承载所需投入的商业项目。我们感觉,自己手里的东西开始变得真正有用。虽然我们当时已经开放了GPT-2的权重,但进展其实很有限。

我当时注意到一件事:如果你发布一个API,通常都会带来一些好处。很多YC公司都是这样起步的。而且,只要你把某个工具做得更易用,它的价值就会成倍放大。我们意识到,运行这些模型变得越来越困难,它们越来越大。所以我们开始写软件,让它们运行得更顺畅。但那时我们并没有明确的产品路线,只是希望外部开发者自己能找到价值所在。我不记得具体时间了,大概是2020年6月左右吧,我们发布了GPT-3。

主持人:发布后反响如何?

Sam Altman:GPT-3的API发布之后,全世界其实并不在意,但硅谷还是稍微有点反应的。大家会说:“哦,这挺酷的,看起来指向了什么。”但确实,全球范围内几乎没有人关注。少数一些初创公司的创始人会说:“这东西真不错。”也有一些人觉得这已经是通往AGI的形态了。但我记得真正通过GPT-3 API跑出可持续生意的,其实就只有少数几家公司,基本都集中在“版权即服务”这类应用上。这可能是当时GPT-3为数不多突破经济门槛的用途。不过我们确实观察到了一个现象:尽管GPT-3 API无法支撑起足够多的成功公司,但用户仍然很喜欢在Playground里与它互动。虽然它当时的聊天功能很糟糕,我们还没搞清楚如何引入RHF让它变得更可控、更擅长对话,但大家就是喜欢用它。从某种意义上说,除了“版权API”之外,这就是唯一一个接近“杀手级应用”的场景,也促使我们最终下决心去构建ChatGPT

等到ChatGPT-3.5推出时,基于API构建的生意已经不仅限于一个场景,而是扩展到了八个不同的应用类别。但我们始终坚信:人们真正想要的是与模型“对话”这件事。我们之前也做过DALL·E,它表现还不错。但我们清楚自己想做的是一款可交互的产品,尤其是在我们可以对模型进行微调的基础上。那时候,我们已经计划在2022年左右正式推出这款对话产品。我记得非常清楚,那款产品最早上线的时间是2022年11月30日。那是六年前的事。我们之前做了非常多准备工作。而现在,ChatGPT每周的活跃用户已经超过5亿人。

主持人:过去六个月你们发布节奏之快,令人印象深刻,真的不断在“发货、发货、发货”。我们看到那么多想法落地成产品,实在令人惊艳。那接下来,我们继续深入聊聊这个问题。你是怎么做到,在公司规模不断扩大的情况下,依然持续提升产品交付速度的?很多公司都会犯一个错误:变大了,却没有真正“做更多”。

Sam Altman:是的,很多公司在规模变大之后,交付却几乎停滞了。大家感觉事情像泡在糖浆里一样,动弹不得,效率极低。我非常相信,每个人都应该保持忙碌。团队应该精干小巧,而不是臃肿庞大。相较于人数,目标应该是“做更多事”,而不是“让更多人参与”。否则你会陷入一种常见情况:每次开会都有四十人参加,结果大家只是在争夺谁可以插手产品的一小块。而这根本无法推进任何真正的进展。商业圈里有一句老话说得很对:一个好的高管应该是忙碌的高管。不是说故意让人过劳,而是说不要让人陷入“无所事事的等待”。在我们公司,包括在很多其他组织中,真正推动价值的,是研究人员、工程师和产品负责人。你希望这些人时刻充满驱动力,把重心放在实质性推进上。所以如果你想发展,最好的方法就是真的“去做更多事”。否则你只能看到一堆人每天在会议室里争吵、闲谈、拖延决策。

我们一直坚持的,是让更少的人承担更大的责任。为了做到这一点,就意味着我们必须保持高密度的执行。我们必须真的动手去做很多事,而不是只是计划或讨论。我们现在确实有机会去构建一个真正重要的互联网平台。但如果真的要成为每个人的个性化AI助手,让他们在不同服务、各种生活情境中都能调用AI,在大场景和垂直细分里都能无缝运转,那还有很多底层工作要完成。

主持人:在过去这六个月里,有没有哪些成果,是你个人特别自豪的?

Sam Altman:我觉得现在的ChatGPT已经是一款非常出色的产品。最主要的原因是:它背后的模型真的非常强大。当然,也还有其他方面起作用,但让我惊讶的是,单凭一个模型,就能完成这么多事情。我们既构建了小模型,也构建了大模型。正如你刚才说的,我们真的在很多层面上做了大量工作。

我们的目标,是要打造一个“核心AI订阅”让它成为人们使用AI的中心起点。你已经可以在ChatGPT中看到这种雏形。未来它还会包含其他类型的界面与能力,就像是订阅服务里不可或缺的核心组件。但最重要的是:我们要持续构建一个越来越智能的模型。它将具备各种接口,适配未来的设备与交互方式,有点像你每天在用的“AI操作系统”。当然,我们知道自己想构建的是什么,尽管它现在还没有一个完全定型的形态。API也好,SDK也好,或者你愿意怎么称呼它,都可能成为我们真正的平台层。我们最终会实现这一目标。可能过程中会有一些试错,但我们会不断推进。

我希望这个平台不仅能为世界创造巨大价值,也能为开发者提供一个可扩展的基础,让他们在其上继续构建创新。所以,我们会持续构建“核心AI订阅”产品与支撑它的模型和服务结构。除此之外,还有很多东西都值得构建。当然,我们从来不认为这个订阅一定要由OpenAI一家来完成。如果你能构建出比我们更好的Core AI订阅,那就去做吧,我们会觉得这是一件很棒的事。

平台与产品|打造“你的核心AI订阅”

主持人:外界有传言说,OpenAI正在以3400亿美元的估值筹集约400亿美元的资金。这个说法准确吗?

Sam Altman:嗯……这件事有传言流出,我不确定我们是否对外正式宣布过,但没关系。

主持人:我只是想确认一下你们有没有官宣。

Sam Altman:嗯,目前还没有正式公开。至于我们的雄心,其实非常简单:我们就是想打造出优秀的模型,推出真正有价值的产品。除此之外,没有什么高屋建瓴的总体规划。

当然,我们需要很多AI基础设施,需要建设大量的“AI工厂”,需要持续改进模型,也需要打造顶级的消费级产品和整个产品堆栈。

但除此之外,我们最引以为傲的是,我们始终保持灵活,可以根据世界的变化调整自己的策略。我们明年要发布的产品,可能现在都还没构思出来。但我们有非常坚定的信心,相信我们能打造出真正被人喜爱的产品。事实上,我从没像现在这样,对我们的研究路线图感到如此乐观。

主持人:研究路线图上都包括些什么?

Sam Altman:非常智能的模型,这是核心。但就目前而言,我们仍然是一步一个脚印地往前推进。我们相信“前向发展”,而不是从远大目标去反推当下。

主持人:我听到有些人总在谈战略,说他们的终极目标是统治世界,或者制定一整套宏大战略从终点倒推回来,然后一步步落地。

Sam Altman:我从没见过这样的人能真正取得巨大成功。我们的方法更朴素,专注于当下。

主持人: 好,我们接下来请观众提问。谁有问题?麦克风来了。

观众:你认为大公司在转型过程中,在工具使用或AI生产方面,犯的最常见错误是什么?

Sam Altman:在创新这件事上,小公司显然跑得比大公司快。这基本上是每一波技术革命里都会出现的规律,对我来说并不惊讶。大公司总是犯同样的错误,组织也有惯性,和人一样顽固。如果你身处一个世界,每季度都在发生剧变,而你组织里负责信息安全的委员会一年只开一次会来决定允许用哪些应用程序,那你根本没法适应现实的变化。把数据输入系统的意义、模型访问权限、工具调用方式……这一切如果要靠年会审批,真的是令人沮丧。但这就是创造性破坏的现实。这也是为什么初创公司能赢,这就是行业的自然演进方向。所以虽然我为此感到失望,但我一点也不意外。

主持人:你觉得这些大公司最终会调整吗?

Sam Altman:我的判断是:他们还会挣扎几年,假装这一切不会颠覆现状,等到形势不可逆了,他们才会在最后一刻匆忙转向,但那通常就已经太晚了。届时初创公司已经走得更远了。这种差异,不光体现在公司之间,也体现在个体用户身上。比如你跟一个普通的20岁年轻人聊天,看看他们怎么使用ChatGPT,再和一个35岁的普通用户聊聊,你会发现他们的使用方式完全不同。这让我想起了智能手机刚推出时的情形。每个孩子都能迅速学会使用,而年纪稍大的人可能要三年才能掌握基础操作。当然,后来大家逐渐融合,但最初确实存在明显的代沟。

观众:你提到年轻人使用ChatGPT的方式,能不能分享一些你觉得特别酷、甚至让你有些意外的使用场景?他们真的把它当成了操作系统在用吗?

Sam Altman:嗯,完全是。他们确实在用一些非常复杂的方式去配置,比如把它接入大量文件系统,在脑子里甚至已经形成了一整套提示语言结构,或者复制粘贴出非常系统的prompt操作。这些我都觉得非常酷,也令人印象深刻。更让我惊讶的是,他们并不需要像使用传统工具那样,问自己“我该做什么”,他们就是自然而然地借助ChatGPT做出人生决策。这个系统理解用户的背景信息,能记住他们过去说过的内容。所以“记忆”的引入确实改变了很多东西。当然啦,有些年长用户把ChatGPT当作Google的替代品,但二三十岁的年轻人会把它当作人生顾问,大学生则更是直接当作操作系统使用。

主持人:那OpenAI内部是怎么用它的呢?

Sam Altman:我们内部有很多代码其实是用它写出来的。

主持人:你能说个具体比例吗?

Sam Altman:我说不出确切数字。其实每次人们谈到这种比例我都觉得挺奇怪的,比如有人说“微软现在的代码有20%、30% 是AI写的”,我总觉得那是个很粗糙的度量方式。也许更有意义的表述是:它确实在写一些真正重要的部分,而且是在帮我们写“有意义的代码”。这才是重点。

主持人:下一个问题。

观众:嘿,Sam,我想回到你刚才提到未来发展方向的部分。你提到很多重点都集中在消费者产品和核心订阅服务上,这也是OpenAI大部分收入的来源。那你们为什么还保留API这部分?而不是把一切都统一整合到一个系统里?

Sam Altman:其实我很希望最终这些东西都能整合起来。比如说,你应该可以用OpenAI账户登录第三方服务;而其他服务,也应该能通过非常好的SDK接入ChatGPT,甚至在某种程度上“接管”掉它的界面层。我们最终希望打造出的是一个个性化的AI,它了解你、掌握你的背景,知道你未来可能想分享什么。这种AI应该是随处可用的,不应该被束缚在某一个App里。现在的API距离这个愿景还有相当长的路,但我相信我们最终可以做到。

观众:我其实还有一个后续问题。作为构建应用层产品的团队,我们更希望能接触到底层构建模块,比如不同类型的API、也许是Deep Research API,虽然它现在不是公开版本,但未来有没有可能为开发者开放这些更强的能力?这会是你们的优先事项吗?

Sam Altman:我希望我们能在这两者之间找到一种新的中间形态。比如说,在HTTP协议层面设计一种新的互联网协议,让不同服务之间可以协作运行,让身份认证、支付、数据传输这些事情都能统一在一个可信的平台层中完成。那会像是构建一个更加模块化的互联网生态系统,里面充满了小型组件与Agent,各种工具与数据可以自由组合、自由流通。我还不太确定它具体长什么样子,但这就像是在雾中前行。每次我们靠近一点,雾就散一点。当然,要真正实现它,我们可能还需要几轮迭代,但这就是我希望看到的发展路径。

观众:嘿,Sam,我叫Roy。我有个问题:既然AI在输入更多数据后表现更好,那你们有没有考虑引入像传感器这样的输入?比如温度、环境、物理世界里的数据,让AI更好理解现实世界?

Sam Altman:人们确实经常这么做。他们喜欢把传感器数据作为输入集成进系统里,就像通过API或工具调用一样。在某些特定场景下,这样的设置运行效果确实非常好。我想说的是,最新一代模型在处理这类信息时的表现比以前强多了。未来我们可能会在这方面更加系统地集成这些能力,但其实现在已经有很多开发者在这样做了。

模型与未来|从个性化AI到科学发现的潜力

观众:嗨,Sam,我最近在Playground上尝试了你们的语音模型,我很兴奋。我有两个问题。第一个是,在你们的技术堆栈中,语音的重要性到底有多高?它未来会如何体现在产品中?你认为它是否会成为ChatGPT的核心组成?

Sam Altman:我觉得语音非常非常重要。老实说,我们目前的语音产品还不够好。但就像我们最开始也花了好些年,才打造出足够优秀的文本模型一样,我相信我们最终也能破解语音的关键路径。而当我们做到了这一点,会有很多人开始真正习惯、甚至偏好通过语音来与AI交互。我们最近推出了新的语音模式。对我来说,最有趣的地方在于它像是一个“触控+语音”的新型交互流程,你可以一边说话一边在手机上点按操作。我一直相信,语音与人机交互结合,将带来一些令人惊艳的东西。

观众:那关于代码呢?你觉得代码是另一个垂直领域的用例,还是说它对OpenAI的未来更具根本性意义?

Sam Altman:代码对OpenAI的未来意义重大。就像今天你向ChatGPT提问,会收到一段文本、甚至是一张图片一样,未来你可能更希望直接得到一段程序。你会希望每个回答都能以代码的方式被定制呈现,或者说,至少我是这么想的。代码是驱动现实世界的重要手段,它能调用各种API、连接系统、落地执行。所以编程能力在未来模型中会变得更加核心。当然,我们也会继续通过平台上的API开放这些能力。ChatGPT 本身就非常擅长写代码。我们正从“助手”(Assistant)阶段,过渡到“Agent”阶段,最终走向“应用程序(APP)”阶段。这一过程是连续演进的。但无论如何,我对“更智能模型”的发展路线图非常有信心。

主持人:在这条路线图上,有哪些关键要素?更多数据?更大的数据中心?架构改进?计算能力?还是别的?

Sam Altman:这条路线图确实包含了你说的很多要素,数据、计算、Transformer架构、测试时间等。但我觉得,最被低估的因素是算法上的重大突破。这类突破可能还剩下一两个,能带来10倍甚至100倍的提升。虽然不多,但哪怕只实现一个,也将是划时代的成果。

观众:你领导着世界上最顶尖的机器学习团队之一。你是如何在“让聪明人自由探索”与“自上而下的指挥调度”之间取得平衡的?

Sam Altman:这确实是一种微妙的平衡。有些项目需要大量协调,因此确实需要一定程度的自上而下推动。但很多团队其实在这方面做得太多了。当我们创办OpenAI时,我们花了很多时间去思考:一个“运作良好的研究实验室”到底应该是什么样的。说实话,这种模式并不容易从当代直接借鉴,因为几乎所有有过经验的老一辈研究者都已经去世了。所以我们只能从历史中汲取灵感。自从那些真正伟大的研究实验室消失之后,其实已经过去很久了。我们经常被问到一个问题:“为什么OpenAI一直在持续创新?为什么其他AI实验室更多是模仿?为什么某些生物实验室失败了,而有些却做得很好?”我们的回答一直是:这跟“原则”有关。

我们观察到了很多模式,也学习了许多经验。但说实话,我们没有发明什么全新的方法,只是厚脸皮地借鉴了历史上那些运作良好的研究机构。用了它们行之有效的方法,而那些有充分理由选择其他路径的人,往往最终并不成功。

我最着迷的是,这些大型模型可能最终能够帮助我们回答人文学科中的一些根本性问题。比如:艺术的周期性是什么?系统性偏见真的存在吗?我们是否能感知这些长期存在的社会现象?这些问题以前很难探测,我们只能提出假设。而现在,我真心希望OpenAI能够为这类探索提供技术基础。

观众:那OpenAI有没有和学术界展开合作?比如在人文或社会科学方向上?

Sam Altman:有的。看到学术界正在做的事情,我们也非常激动。我们确实有一些定制项目,与学术研究人员合作,探索特定方向。但大多数人其实只想直接访问模型本身,或者获取基础模型的使用权限。我们在这方面做得还不错。我们的激励机制很大程度上是为了让模型变得尽可能聪明、便宜、普及,从而能更好地服务学术界乃至全世界。虽然我们有一些定制化的合作伙伴,但我们发现,大多数研究者真正想要的,还是我们能持续改进核心通用模型。所以我们努力把90%的资源都集中在这件事上。

观众:关于定制化,我还有个问题。你刚才提到OpenAI联合登录可以保留用户的记忆和上下文。那你认为针对特定应用的后训练或定制,会是长期手段,还是只是权宜之计?

Sam Altman:柏拉图式的理想状态,是一个非常强大的模型,它可以在上下文中进行推理,而无需改变其参数或进行重新训练。想象一下这样一个模型:它拥有数万亿个上下文token,能吸收你一生的全部经历,你每一次对话、每一封邮件、你读过的所有书和网页,全都在里面。这些信息不断地融入上下文,不断演进。你和你的公司都在持续地“追加内容”,但这个模型本身从不需要重新训练,它只是基于上下文不断推理。今天我们还做不到这一步,但所有其他路径其实都是对这个理想的一种妥协。

观众:最后一个问题。未来12个月,你认为我们将从哪些技术创新中收获最大价值?是记忆?是安全性?还是Agent能够更多地与现实世界交互?

Sam Altman:价值会继续来源于三件事:构建更多基础设施、打造更强大的模型,以及把它们更好地融入现实社会。只要这三点能推进,其他问题都可以解决。具体来说, 2025年将是“Agent开始真正发挥作用”的一年。尤其是在编码领域,我预计它会成为主导类别之一。当然,也可能会有其他方向。我还很期待明年AI是否能帮助我们实现真正的科学发现,甚至是一些重大的突破。我一直相信,历史上的大部分经济增长,其实都是建立在科学认知的扩展上。我们从探索知识,走向改变物质世界。当AI能自主理解世界并行动时,它也许就会变成一种新的、严肃的经济价值创造力量。当然,这只是我脑海里冒出来的一个推测。

主持人:我们还有时间问几个快速问题吗?

观众:GPT-5会比我们所有人都聪明吗?

Sam Altman:嗯……如果你认为GPT-3比你聪明,那你可能已经感受到了它的强大。但GPT-5……它会更强大,但我不确定它是否“比我们所有人都聪明”。

观众:两个个人问题。你上次来这里时,OpenAI刚刚经历了一些波折。回头看,你对创始人有没有什么关于韧性、耐力和力量的建议?

Sam Altman:随着时间推移,这件事确实会变得“更容易一些”。作为创始人,你一定会面临各种逆境,这些挑战会越来越艰难、风险越来越高。但当你经历得越多,情绪上也越能承受,所以从某种角度说,确实是“有效的”。挑战越大,反而越能锻炼你的抗压能力。就像每一次打击,都会构成你后续应对更大问题的基础。

但真正最难的部分,并不是危机爆发的那一刻,而是危机之后的收尾阶段。一家公司面临重大困难时,比如资金告罄、业务崩盘,你其实会收到很多支持,有大量人围绕你,大家全神贯注、充满活力地应对那场危机。但当高潮过去,你独自面对残局,恢复常态,那才是真正艰难的部分。关于这一阶段,创始人世界里其实很少有人在讲。我们有很多关于“Day 0、Day 1”的建议书,却几乎没人谈“第60天之后”如何修复和重建。这是一个值得所有创始人认真练习和持续进步的领域。

主持人:谢谢你,Sam。你现在还在休陪产假吧,我知道。所以特别感谢你抽空来到现场,非常感谢!

Sam Altman:谢谢你们。

原视频:OpenAI’s Sam Altman on Building the ‘Core AI Subscription’ for Your Life

https://www.youtube.com/watch?v=ctcMA6chfDY编译:Nicole Wang

请注意,本文编译自文末载明的原始链接,不代表Z Potentials立场。如果您对本文有任何想法或见解,欢迎在评论区留言互动探讨。

Z Potentials将继续提供更多关于人工智能、机器人、全球化等领域的优质内容。我们诚邀对未来充满憧憬的您加入我们的社群,与我们共同分享、学习、成长。

——-

(文:Z Potentials)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往