
图片来源:Matthew Berman
Z Highlights
-
如果每个人都必须做广告,谷歌总是会赢。如果AI赚钱的新方式还是通过关键词或提示来投放广告——那他们就会赢。他们拥有所有的广告网络。它基本上是一个黑手党。广告是如此的黑手党行业,你甚至不想去与现有的竞争者对抗。
-
少花时间在Instagram上做无意义的浏览。多花时间使用AI。不是因为我们想要你的使用——而仅仅因为那是你为新社会增加价值的方式。
-
每个公司将需要更少的人。那些失去工作的人,要么自己创业,利用AI,要么学习AI并加入需要雇佣少数人的新公司。
Aravind Srinivas 是Perplexity AI的联合创始人兼CEO,曾在OpenAI、DeepMind等机构从事人工智能研究。Matthew Berman 是Forward Future的创始人,该平台专注于人工智能教育,曾在DEFY Media和Comcast担任战略职位。本次播客发布于2025年7月,Matthew和Aravind讨论了Perplexity开发Comet浏览器的原因、与谷歌的竞争、AI的商业模式、隐私保护以及AI对社会的影响。
为什么Perplexity决定做Comet浏览器
Matthew Berman:今天我们将讨论很多内容。我们现在在Perplexity的办公室,感觉非常好。显然,我们需要谈谈Comet。Comet大约一周半前发布——五天前。我换用了它,一直在使用,感觉非常棒。但首先我想谈谈,是什么原因促使你们决定开发自己的浏览器?
Aravind Srinivas:这个想法的起源显然是在于,最终,大多数用户查询都是通过浏览器的搜索框进行的。那是在我们甚至没有考虑到Agent和其他东西之前。现在世界上大多数搜索查询的入口点是什么?大约150亿次——这是目前谷歌的查询量。我会说其中很大一部分,可能70%到80%,甚至更高——我不确定具体数字—的流量通过Chrome、Safari或谷歌的URL栏进入。它叫做omnibox,这是人们使用的术语。甚至有一个历史背景,解释为什么谷歌会制作谷歌工具栏——现在已经不存在了,因为它都集成到一个搜索框中——那时候浏览器有一个URL框,然后是位于书签面板下方的谷歌工具栏,你可以直接在任何页面上通过它在谷歌上搜索。因为当时有个区分,URL栏只应用于导航——也就是输入URL——和搜索。现在这个区分已经不复存在了,你可以在一个框里输入所有内容。这就是为什么它叫omnibox。
谷歌工具栏的出现,让谷歌的流量增加了5倍左右,帮助他们获得了更多的广告收入。他们可以支付费用让人们在浏览器上安装谷歌工具栏,甚至可以付费给其他桌面软件客户端,强制安装谷歌工具栏到本地浏览器。虽然他们不需要为此付费给微软,但他们可以把它放在IE上。如果有人安装了其他桌面客户端,他们就可以将谷歌工具栏推送到IE上,从而获得大量流量。谷歌对工具栏的重视程度就是这样。很有趣的是,正是Sundar参与了工具栏的工作。曾经有一个历史时刻,微软在推送更新以修复Internet Explorer,结果把谷歌工具栏给移除了,改成了MSN之类的东西。于是谷歌急忙去和所有OEM商谈合作,保留旧版的IE,避免这个修复程序的影响。那是Sundar完成的工作。正是在那时,他们决定:好吧,你们必须开发自己的浏览器,不能再受微软控制。
Matthew Berman:我之前没听说过这个。
Aravind Srinivas:是的。这不是谷歌公开说的事情,但很多前谷歌员工已经记录了这段历史。类似的事情也发生在我们身上。例如,当我们做一个Chrome扩展——如果有人安装了我们这个Chrome扩展,并将Perplexity设置为默认—。每当Chrome更新后,它就会消失。它会突然消失。然后我去Chrome商店,看看这个扩展发生了什么,它会显示:“哦,这个扩展因为更新被自动卸载了,因为它可能会获取你的搜索数据”——或者其他一些随便的理由。然后它就不能按照我们预期的方式工作了,变得很糟糕。这种情况曾经发生过,我自己也遇到过。所以我可以毫不犹豫地说这件事
我们有一个侧边栏网站,另一个扩展每次都会将我们显示在侧边栏上——虽然不是一个明确的侧边栏,但你可以向它提问网页上的内容——而我们没法做很多我们想做的事情。所以有一个时刻非常明确:我们需要自己的客户端,并控制我们自己的命运。但这对我们这样的公司来说是一个巨大的干扰,我们应该专注于核心产品。现在有很多人把搜索整合到自己的AI里。所以你必须改进自己的搜索服务,否则就会变得无关紧要。而浏览器就像是一个需要几个月时间专注投入的工作。所以为什么还要去做它呢?很多人都劝我不要去做这个。但对我来说,那一刻的决定是:你能不能从进攻和防守的角度做出这个决定,而不仅仅是防守?到目前为止,我说的所有理由都是防守。而进攻是,当有些事情只能在浏览器上做,而在其他地方做不到时。
这就是查询——AI和搜索接下来发展的方向——也就是AI Agent。第一个真正的AI Agent,说实话,每个人发布的都是深度研究。比如,它可以去研究网页并执行任务。然后我们做了Labs,它可以构建仪表盘、网站、分析以及许多网页应用。我们已经开始看到这些推理模型的能力,它们可以用10分钟的时间去深入思考,并做出一些本来需要几个小时才能完成的事情。
想象一下这股力量应用到日常浏览任务中——从不同的标签页中提取上下文,对你所有的Slack、Notion或Google Docs做深度研究,回答你的一百封邮件,审计你的日程并调整会议——所有这些都是个人助理或行政助理为你做的事情。如果你是一个小企业主,比较商品价格并计算如何定价——这可能会让你在与那些花10个小时做这件事或雇佣小团队全职做的人之间,获得套利机会。或者根据人们在Reddit上的评论调整你的营销信息——试图与他们对话。这些事情需要很多时间,而使用传统方式,你无法可靠地爬取网页来完成这些任务。拥有只需打开标签页、进行研究、按需提取信息,并将这一切协调成用户可以用来控制标签页并完成任务的输出的能力——我们觉得只有完全掌控客户端并以最优雅的方式将AI整合进去,才能做到这一点。所以,这成了我们去开发浏览器的一个防御性和进攻性理由。
这就是为什么我们决定——大约在去年年底——开始开发这个项目,花了我们大约8个月时间才发布它。 这是一个疯狂的时间表,从零到1用了8个月。 当然,我得承认——我敢肯定会有些人在你们的评论里说,“哦,这是一个Chromium分支。他们并没有从零开始构建。” 确实是Chromium分支。
但是——其实所有东西都是Linux分支。想想看,我们都站在巨人的肩膀上。 我尊重谷歌在开源他们的Chromium库方面所做的工作。 我们是在这个基础上进行构建的。我们也希望为它做出贡献,我们不仅仅是消费者。 实际上,在我们为谷歌审判做的美国司法部证词中,我们确实提到过——OpenAI曾在推动购买Chrome——我们实际上提出了一个观点,认为Chrome不应该……像谷歌不应该被拆分,Chrome应该继续留在谷歌旗下。 我们提出这个观点的原因之一是,谷歌一直是开源的良好管理者。 如果OpenAI——它是开源的对立面——拥有Chromium,那就不太合适了。 我们认为必须赢得管理Chromium或Chrome的权利。 提供一个支持10亿人的浏览器——这是一项巨大的、纪实性的努力。所以我们必须一步一步地构建。 但我们确实是基于Chromium进行开发的。它确实加快了开发进度。 但为了确保基本的浏览功能能够可靠运行——导入登录信息,完成所有基本任务——你必须做大量的质量测试和错误修复。这仍然是一项艰巨的工作。而我们不仅做了这些,我们还确保了AI Agent的工作达到了一定程度,让人们都感到惊艳。这就是为什么我对8个月内发布的版本感到非常自豪。我还不能说它已经完成——我们需要确保它能够每天为一百万用户提供服务,然后再基于此扩展。所以还有很多基础设施的工作要做。但我对现在的起点感到非常满意。
Matthew Berman:是的。我是说,当我第一次安装它时,首先——我之前在录制前提到过——它是完全无缝的。所有的书签都得到了,所有的认证都完成了。但是当我开始使用AI Agent时,我注意到一些与使用托管云端AI Agent环境的不同之处——在那里,环境是在云端启动的,每次你都必须从头开始——我已经完成了认证。而且,当我正处于任务中时,如果我在做某些事情并想到,“哦,现在是我的AI Agent接手的好时机”——这种类型的体验,在完全托管的版本中是做不到的。
Aravind Srinivas:是的。
Matthew Berman:而且没有人会希望将你的客户端完全托管在别人的服务器上。这是极其危险的。
Aravind Srinivas:你为什么这么说?为什么你会希望将登录版本的客户端放在第三方应用上,存储在别人服务器上?这是一个巨大的安全风险。你必须确保他们删除他们的Cookies或OAuth令牌。这些都是你在使用Comet时不需要担心的事情,因为所有内容都存在于你的客户端上。 基本上,我们不需要在我们的服务器上保持你在亚马逊、Uber、Gmail或Google日历等服务上的登录状态——任何你每天使用的服务。 这是我们与OpenAI在做Operator时的做法之间的一个重要区别,OpenAI试图在服务器端保持所有内容,并以无头方式执行一切。然后他们会存储OAuth令牌,或者保留持久的Cookies。这些并不是让用户对其安全性感到放心的好方法。
所以浏览器本质上让你从两个方面受益。一方面——它提供了一种客户端和服务器端架构的混合。你所有所有第三方服务的登录状态都可以保留在客户端,这些数据都存在于你的客户端中。我们不需要获取任何这些数据。每当你提示我们的Comet Agent或助手为你执行任务时,它只会从你浏览器中打开的标签页中提取相关信息,解析屏幕,并完成任务。任务的智能来自服务器端——即在云端运行的模型——这些模型如此强大,以至于今天无法在本地运行。如果你想删除这些查询,你可以去Perplexity删除这些查询——而且如果你希望在隐身模式下运行,我们也支持,我们甚至不存储这些提示或中间的思维链。这些东西都不存储。所以一切保持安全。这样,我们真正帮助你确保所有信息都属于你。我们从服务器端获取前沿智能,但只按需应用到你的数据上——并且永远不需要让你在我们的服务器上保持登录状态。这是与OpenAI的做法相比一个非常好的设置,OpenAI试图将你保持登录状态在他们的服务器上。
另外我想说的是——omnibox。如果你试图争辩,“嘿,为什么我需要一个浏览器?它只是一个遗留产品。给我一个聊天窗口,我会和它聊天,它就能为我做所有事情。”人们真的没有意识到,AI还没有准备好完全自动地做所有事情并且100%可靠。所以你仍然必须做很多任务。比如,我仍然不会信任Comet准确地为Perplexity做财务会计。我们有很多现金,我不信任它去登录摩根士丹利、摩根大通。而且,他们的系统登录起来非常复杂。这些事情今天做不到。所以——你就打算去浏览器里做这些事吗?你需要一个可以做所有工作的环境。这就是浏览器为你提供的功能。omnibox是你通常输入大部分内容的地方。所以,如果我能在你正在浏览的网页上直接帮助你——我就能在你身边共同浏览。这是非常强大的。我还可以为你完成任务。所以这就是我们决定这完全合理的原因。将你锁定在一个桌面应用程序中的另一种做法——那是完全不同的UI,试图构建这些流媒体UI作为一部分——而且AI Agent非常糟糕,实际上没有完成任务——这就是让人们对Operator失去信心的原因。
更多的本地体验在很多方面表现得很好。可以看看HTML5和本地应用程序的对比。有很多决策是本地体验占了上风。
Matthew Berman:我想——你描述的一切实际上是将Perplexity从Google Chrome上去平台化。如果你从这里推断下去——是否有一个世界,Perplexity可能会开始考虑甚至构建操作系统?你曾在推特上提到过:OS.AI。然后也许是一个设备?你们的愿景是什么样的?
Aravind Srinivas:我们不打算构建设备。那需要很多承诺。我们公司基本上没有任何人在硬件方面有任何深入的专业知识。今天去做这个也是缺乏聚焦。操作系统比我想的更可行,尤其是在做了浏览器之后。我会说:你必须赢得做事的权利。我们做了一个相当不错的搜索产品。我们完全重新定义了搜索——以至于每个其他聊天机器人都在模仿我们。我们做了史上第一个多步骤推理搜索,甚至在像GPT-4.0这样的模型出现之前。我们把它拼凑在一起。那种方式成为了如何做研究Agent的蓝图——现在他们都在流式传输他们的思维链和中间步骤。所有的用户体验都是Perplexity为此构建的。
所以我们达到了一个使用规模——虽然不是ChatGPT级别的使用量——但在用户保持率方面,我会说是第二大最常用的AI聊天机器人。Gemini的用户比我们多,但移动端的保持率——表现得相当差。因此,在实际被人们使用的应用方面,尤其是对于信息获取,Perplexity在ChatGPT之后始终排名相当高。所以我们算是赢得了去构建下一个大项目的权利。很多人想通过在他们的聊天机器人上增加更多功能来超越ChatGPT——他们完全错过了重点。
前端——谁拥有聊天层——这个问题已经解决。那场比赛已经赢了。OpenAI完全赢得了那场比赛。没必要逃避这个事实。谷歌显然会继续尝试成为第二名,虽然差距很大。
但我不想打第二名的比赛。我想打第一名的比赛:工作流——端到端的AI Agent工作流——超越了聊天。浏览器是你使用频率远高于聊天的产品。而且它是一个非常粘性的产品。一旦你使用了它,要你换回另一个浏览器需要很大的努力。谷歌第一次变得脆弱了。们可以发布所有这些AI功能——但顺便说一下,这需要大量推理开销。即使他们想摧毁通过让人点击链接来盈利的商业模式,推出一个消耗大量推理成本并面向几十亿用户的AI Agent对他们来说仍然是巨大的开销。即使是我们今天也做不到这一点。
目前,Perplexity只为最大用户群和等待名单上的受邀人员提供服务。所以这将需要一段时间来扩展。这是一个新产品,我们很高兴能抢先一步走在其他人前面。这也不是一个可以快速发布东西的产品。一切都需要时间。在做这个产品时,你会面对一些真正的痛苦。所以我们希望这能成为一个良好的进入壁垒——不仅是发布客户端的第一个版本,而是持续的升级,持续推出新功能,并承诺在这里工作十年。
关于谷歌的一些争议
Matthew Berman:显然,你们非常具有竞争力——我能看出来。谷歌将继续在浏览器中加入AI功能。OpenAI也有传闻——他们可能很快会推出浏览器。你们如何保持竞争力?你们认为在继续发展的过程中,自己有哪些差异化优势?
Aravind Srinivas:对谷歌的反驳其实和我们对谷歌核心公信力的反驳是一样的——那就是经济学。如果是AI Agent在点击链接,阅读内容并为你做出购买决策,那么为什么企业还要在Google AdWords上每年花费那么多亿?这感觉像是对广告商承诺的彻底失败。因为他们都相信他们得到的是真人点击。而一个人只需要提示AI,说:“嘿,当你实际去谷歌时,忽略所有的赞助链接。只点击真实的链接。阅读这些网站上的所有评论。去看YouTube视频。然后点击最好的那个并为我购买。”我会完全委托给你——只要在你购买之前先和我确认。如果我保存了这个——它花10或15分钟去做这件事——并且把这个长期任务整合起来,回来告诉我:“嘿,这是我找到的。这是适合你的东西,基于你喜欢和关心的内容。我将继续购买。你批准吗?”我说:“好的,继续。”那为什么其他人在竞标这些AdWords并花这么多钱呢?对他们来说完全没有意义。他们将不得不在品牌广告上花更多钱,而不是在效果广告上。
所以——这就是谷歌AdWords商业模式的杀手。然后——为什么他们要以疯狂的速度推出这些功能?今年的Google I/O,他们宣布了Project Astra,能够做一些这些事情,但不是完全做到。而且它是一个每月$250的付费计划。对于像Perplexity这样的一家新兴创业公司来说——没有谷歌那样上百亿美元的现金流——将一些功能放在每月$200的付费计划后面是可以理解的。但为什么谷歌会这么做呢?那是因为他们不想破坏自己的商业模式。他们失去了太多,一旦把这种技术开放给所有人。第二个问题显然是成本。推理成本对他们来说太高了。所以这对一个正在成长的公司有好处,而不是一个已经有用户基础的公司。你今天无法将这项技术推广到30亿人。这需要很大的努力。第三个问题是安全风险。我们非常注重安全和隐私,但我们是一个创业公司。我们注定要挑战现状。人们愿意接受一个工作非常出色但还不完美的产品。对于谷歌来说,他们在Chrome的商业使用中有非常高的安全标准和企业安全标准。在这里犯任何错误,都将比比萨饼上的奶酪粘住还要糟糕。记得那个让他们损失巨大的错误吗?他们第一次展示Bard时发生了一个实时错误——谷歌股票下跌了7%。然后Gemini不断犯错。在你最重要的资产之一——搜索业务的圣杯——omnibox上犯错误,导致人们转向Safari或其他不想快速推出AI的浏览器,这将让你付出巨大的代价。
Matthew Berman:好吧,我们来谈谈AI辅助的网页浏览体验。当我第一次开始使用Comet时,我开始看到人类未来网页浏览的雏形。似乎有一种人类与互联网之间的解耦——现在,AI Agent将处于中间。这是你的目标吗?这是愿景吗?尤其是随着AI生成如此多的内容,噪声与信号的比例变得更糟,也许我从互联网上获取信息的唯一方式就是有一个AI Agent在前面。这是你长期的愿景吗?
Aravind Srinivas:我希望网络不会变得那么糟糕——大部分内容都是AI生成的垃圾。今天对我来说已经有点像这样了。就像我现在每次在X上发布推文,回复我的是一大堆机器人。我一直把它们标记为垃圾邮件或机器人——似乎很难对抗这些。是的——绝对,这将是Comet的一个很好的用例。“去读这篇文章,或者去读这堆推文,帮我筛选掉所有看起来像AI和垃圾邮件的内容,只留下所有有价值的内容。总结一下并以我想要的格式给我。”然后把它托管在这个本地客户端上——我只想阅读它。这样你就可以建立你自己的版本,去阅读X的内容,或者是你想读的LinkedIn内容。比如——你有一大堆人发来连接请求,你没有时间一一查看。你只需要说:“好的,筛选掉那些至少有一个共同联系人的人。我不想接受那些我甚至不认识的人……”
Matthew Berman:那实际上就是我用Comet做的一个用例。
Aravind Srinivas:或者你举办一个活动,有200人想加入。你只需要说:“按照这个标准进行筛选,去LinkedIn查查他们,看看他们是否来自有信誉的品牌。这些是我想要的品牌。然后先给我那些人,接受他们的请求,给他们发邮件说他们被接受了。” 这些任务本来需要你或你的团队花多少小时才能完成?
Matthew Berman:可能会花一些时间。
Aravind Srinivas:无聊的任务。
Matthew Berman:完全是。
Aravind Srinivas:没错。所以我们要做的就是这种事情。根据你的说法——如果随着AI的发展,噪信比越来越差,我们希望有办法去对抗它,也就是:每个人都有自己的个人AI来帮助他们过滤垃圾邮件——只给他们信号。
Matthew Berman:好的,我想接着谈谈你们选择集成到Perplexity中的模型。你们已经支持了一些模型。你最近在X上发布了:“Kimi模型在内部评估中表现良好。我们可能很快就会开始对其进行后训练。” 所以有两个问题:
•你们是如何选择要与Perplexity集成的模型的?
•那种高度后训练的过程是怎样的?你们是如何让一个模型真正适应Perplexity的?
Aravind Srinivas:我们内部有一个基准叫做“PPLX Bench”。这是一个我们不断添加更多提示的基准。人们可以在X上报告一个bug,或者直接从产品、Discord、Reddit等渠道报告,我们有很多渠道来收集bug。我们不会立即去修复bug。我们做的是:我们将它加入我们的评估集。我们尽量把一堆bug一起修复——无论是通过提示修改还是后训练来修复。然后在基准集上评估差距。基准集会不断扩展,包含那些对我们的产品和用户真正重要的提示。这为我们所做的任何修改提供了真实信号——无论是提示版本更新还是后训练。所以,每当有新的模型发布时,我们不仅仅依赖学术基准的状态。我们实际上可以看到它在我们的内部评估中的得分,评估分布在许多不同的领域和用例上。
一旦模型表现得很好,任何模型提供商很难在我们的基准上过拟合,因为我们实际上没有公开版本。他们可以通过挖掘更多类似训练集的提示,在学术基准上过拟合——即使评估集是私有的。但是他们不能为Perplexity进行挖掘——因为它是真正的用户。所以这是有帮助的。我们如何进行后训练是:抽取一些今天表现不好的提示,再加上一些模型仍然需要作为通用模型擅长的提示。将这些都组合起来作为后训练集,同时进行SFT和RLHF。对于RLHF,我们使用的是GRPO算法——这是DeepSeek设计的。目前,所有的后训练都是在DeepSeek模型上进行的,这些是最先进的模型。我可以说Kimi肯定会对其构成挑战。我们也有一些小的阿里巴巴Qwen模型的微调。我们将这些用于许多分类器。所以有很多不同的模型。我们使用的不仅仅是核心聊天模型。有时在处理某些提示时,你必须判断它是否需要你的个人数据,或者是否需要一个财务UI,或者是否需要图表,或者是体育卡片,或者——它是一个购物查询——是否需要渲染结构化卡片。每当你向Perplexity查询时,可能有20个不同的模型在运行。
即使你选择的是单一模型,后台也有其他模型在运行。你选择的“最佳”模型是那个能够总结报告并协调这两个调用的模型。这就是你选择的模型。但那个模型并不是独自完成所有工作。这并不是一个难度很大的事情——每个人都在做这件事。OpenAI也在做这件事。因为每当你在ChatGPT上提问时,他们会决定是否进行网页搜索。这其实只是一个分类器。
Matthew Berman:对。
Aravind Srinivas:这就是为什么AI将会由那些能够很好地进行上下文工程的人所赢得——能够汇聚所有相关的上下文,协调所有相关工具,并将它们打包成一个出色的用户工作流的人。这是护城河。模型肯定有帮助——毫无疑问。智能做了很多魔法。如果没有像GPT-4.0或Sonnet-4这样的模型,我们做的很多事情会变得非常困难。但我也预期,今天的前沿技术,至少一年后会变成商品。
Matthew Berman:我们稍微谈一下这个问题,因为我在想:Perplexity是否认为需要与前沿模型提供商竞争?因为仅仅为了获得那额外的5%的智能,你可能需要花费数十亿美元。你怎么看?
Aravind Srinivas:不,这甚至不是我做不到的事。很多人认为我们不懂得如何训练模型。其实并非如此。我们具备训练模型的LLM专业知识。但问题不在于一次性发布一个模型。MosaicML曾经做过这一点——但现在没人再谈论他们的模型了。为什么呢?因为你必须不断地生产模型。这是一个永无止境的过程——直到某天有人实现了通用智能或超智能——没有人知道那意味着什么。但假设有一个疯狂的模型,能做一切,它给了他们递归自我改进的循环,然后它远远领先于其他模型——直到那时,你就得继续在那些少数的排行榜和基准上与其他人竞逐。如果你不这样做,那么最好的研究员就会去那些能够做这件事的实验室工作。或者你会被那些花1亿美元把他们挖走的人收购。
所以你必须持续构建你的集群,并为未来两年做好规划,这包括建立拥有成千上万 GPU 的庞大集群,采购大量能源,因为这些设备的能耗极高。你还需要建设自己的数据中心,并为此做好充分的准备。换句话说,你必须彻底转型为一家专注于此类基础设施的公司,并且要接受这一现实。并不是简单地让公司的一个研究团队训练一个模型,发布后庆祝一周,然后在六个月后变得无人问津。我对那种短暂的成就毫无兴趣。这正是为什么训练真正对你的产品和用户有价值的模型至关重要的原因。对我们而言,目前我们非常关注两件事:
•极为出色的摘要,具有引用且没有幻想——准确性和格式化答案非常好。这已经由Sonar系列模型提供支持。其实我们大部分查询都去到那个模型——即使人们可能没有意识到这一点。如果你选择“最佳”,大部分查询会打到Sonar。
•我们希望训练出在控制浏览器方面非常强的模型——比如点击标签页、浏览页面、解析界面。
Matthew Berman:你们今天使用什么模型来做这些呢?
Aravind Srinivas:我们还没有自己的内部模型来处理这个问题。我们现有的内部模型主要用于执行一些基础任务,例如打包上下文、生成摘要以及转换数据等。但是真正具有价值的部分在于决策环节——即实际执行的动作。我预计像这样的模型很快就能在本地运行。我们想去训练这类模型。就像训练出非常适合摘要、引用和对话搜索的模型一样——我有信心我们可以将我们的专业知识应用到这一领域,训练出非常擅长控制浏览器标签的模型。这将是一个非常有价值的模型。它不需要非常大,但需要足够通用,不能太狭窄。它需要具备所有这些伟大模型所具备的通用性和推理能力——这为它提供了基本的智商——但它也需要专门化,以便足够快速地去控制浏览器。无论你现在给Comet的任务是四五分钟——我们能够把它缩短到一分钟的任务,这种魔法般的实现方式将为用户带来极大的便利。唯一的方式就是训练我们自己的模型,这些模型是:足够小,拥有我们自己的推理核心,可以在用户的设备上本地托管。
Matthew Berman:本地化会非常了不起。
Aravind Srinivas:是的。我甚至不知道MacBook是否足够强大,真的让你实现这一点。但如果可能——那将是不可思议的。微软在他们的一些笔记本电脑上做了NPUs。而MacBook有M1芯片——所以如果我们能在一年内做到这一点,它不仅能提供速度,还能提供隐私保障——你甚至不必再担心服务器端的内容了。一切都可以存在于客户端。这才是真正特别的地方。
我们必须朝着那个未来去构建。今天,这是不可能的。没有人拥有可以本地运行的GPT-4级小型模型或GPT-3.5质量的开源模型。它正在逐步接近。比如,Kyut模型——它有几十亿个参数——但它仍然无法高效地在本地运行。DeepSeek大概有6700亿参数之类的——它仍然无法高效地在本地运行。你也许可以把两台强大的MacBook组装起来,托管DeepSeek——但我想要的是一个不会耗尽电池,并且仍然能运行像GPT-3.5那样智能的东西——并且是本地的。
Aravind Srinivas:看起来我们离拥有一个能高效本地运行、功耗低的强大模型还很远。
Matthew Berman:是的。
Aravind Srinivas:还是觉得相当遥远。但这肯定会发生。这就是关键所在。为什么你会赌它不会发生?算法上,蒸馏技术是有效的。它不仅适用于监督学习——克隆另一个模型的响应——它也适用于强化学习,你可以确保做决策的那个——在概率上提供与更智能模型的政策相同的输出分布。那你为什么要赌它不会发生?为什么要赌开源不会赶上?你不应该这么做。差距会更长——像是不会再是三个月内就有一个开源版本了。可能要六个月、一年。还有——看起来中国的实验室今天正在构建这些开源模型。通常,落后的那些人会构建开源模型。这就是Meta也开源他们的模型的原因。如果他们真的超越了——他们就不会再开源了。这没关系。我们一直认为会有这样一个动态——会有三四个人,
Matthew Berman:你不认为Meta会长期承诺开源吗?
Aravind Srinivas:我的意思是——如果你落后,改变市场的方式就是把它免费发布出去。我不认为任何人真心承诺开源。我会根据实际情况来做。有人持有对开源的教条式看法,以及你将要做开源的美德标榜——这都是人们出于便利性做的事情,就是:“我落后了,现在唯一能吸引人们注意的方式就是开源我的模型。”与此同时,他们还拥有开发者的思维份额,这有助于提升你的产品品牌。如果很多开发者在构建它,你的品牌就会变得比之前更强大。所以人们也会使用你的应用。这就是DeepSeek发生的事情,它正被展示出来。所以这就是做开源的理由。这更实际。否则,为什么有人要花费1000亿美元,把它全部免费送出去,让别人使用,然后再构建他们自己的应用?
互联网不需要广告
Matthew Berman:我想谈谈关于隐私方面的Comet和Perplexity。你曾被误解——你提到过Comet会追踪用户在其上的所有操作,并通过这些数据提供高度个性化的广告。能澄清一下吗?Comet到底追踪了什么?你们的广告计划是什么?
Aravind Srinivas:那是我在“Technology Brothers”播客上的一次访谈。他们问了我一个假设性的问题:“每个人都在尝试通过订阅赚钱,但似乎没有人在尝试广告。那么,在AI领域,广告真的能奏效吗?”于是我给出了一个回答——他们只取了那个回答,那个是一个假设性的场景,之后就说我想做广告。让我明确地说:我们不需要做广告。如果每个人都必须做广告,谷歌总是会赢。如果AI赚钱的新方式还是通过关键词或提示来投放广告——那他们就会赢。他们拥有所有的广告网络。它基本上是一个黑手党。广告是如此的黑手党行业,你甚至不想去与现有的竞争者对抗。
Matthew Berman:是的。
Aravind Srinivas:所以我们正在努力创造一个未来,在这个未来中,我们可以真正通过AI Agent为你提供价值——你只需支付AI Agent,就像你雇佣一个人一样。你支付订阅费用,或者按任务完成量支付基于使用的费用。
按任务完成来收费。或者,“差不多完成了你的工作。”我们有很多想法,想建立一个更基于结果或使用的商业模式——同时提供类似Slack的固定订阅费用,供所有这些AI Agent使用。这可能就像一个保留费用。如果我们通过节省你大量的琐碎工作为你的生活创造了价值——这比做广告的模式要好得多。当然——也许每用户平均收入(ARPU)永远达不到广告的水平。而我不在乎。即使我们达到1亿用户,每年的ARPU是50美元或100美元,那也相当于每年50亿到100亿美元的收入。从我今天的位置来看,这是一个了不起的结果。这将使我们成为一家多亿美元的公司。我们可以建立其他业务,比如:API,为他人构建第一方应用提供搜索或浏览基础设施,从Agent代表你所做的交易中抽取佣金。几乎像房地产Agent人一样,买卖双方都支付佣金。这一切都是可能的。我很高兴看到一个结果——每年赚取数十亿美元的收入——而永远不会像谷歌那样赚到2000亿美元。我对这样的结果完全满意。
Matthew Berman:但如何应对——世界上有很大一部分人是负担不起任何费用的。这也是Meta和谷歌做广告的一个大原因——因为他们可以。
Aravind Srinivas:我不确定那是不是事实。我曾经认为那是真的。但我现在不确定它是否还成立。我给OpenAI很高的评价,因为他们向世界展示了,你可以通过人们支付ChatGPT的费用——他们获得了100亿美元的收入——即使在像印度这样的国家——也有很多人支付ChatGPT、Perplexity、Cursor和Claude的费用。特别是Claude的代码在那里的受欢迎程度正在上升。我面试过一些工程候选人,他们每月支付大约1000美元给Cursor。
Matthew Berman:真的吗?
Aravind Srinivas:是的。因为它实际上为他们节省了很多时间,他们可以花时间和家人和孩子在一起。否则,他们只是在赶紧在紧迫的截止日期前编程。如果你觉得和家人共度时光值得这么多钱——你会为此付费。这是一种很好的方式来框定它。就像——如果你认为能有更多的时间陪伴你爱的人,或者能帮你再去度假一次,然后你在工作上做得很好,获得升职——这些远远弥补了你对AI工具的投资。
你为什么要付钱给金融顾问来投资你的钱?假设你赚了一些钱——你将付钱给某个人给你投资建议。你知道你支付给他们多少钱吗?或者你支付给房地产经纪人多少钱?你支付给帮助你找到公寓的中介多少钱?你支付了很多钱。你只是没有想到这一点——因为社会就是这么运作的。这个(AI)是新的。还没有成文的结构性规范——所以它感觉是新的。你试图把它映射到现有的思维模型上,马上把它当作“订阅服务”来思考。你有没有想过你每个月在Amazon上买东西的频率?你没有。你只是买了Prime计划。我不认为每个人都那么频繁地看Netflix——但你仍然购买会员。人们为Equinox会员花300美元,我甚至不认为他们那么常去健身房。所以想一想——人们其实在很多并不总是理性的事情上花了很多钱。你完全可以在家买个咖啡机,而不是每天去星巴克。
Matthew Berman:好的——显然,短期内没有做广告的计划,也许长期也没有。那么追踪的部分呢?你愿意分享什么被追踪了?
Aravind Srinivas:我们会让人们不向我们的服务器发送任何数据。客户端上需要提取一些信息来进行提示,这一点是无法避免的。但我们不会获取你的登录信息、密码、信用卡。这些都保留在客户端。你通过浏览器存储在第三方服务器上的所有信息——就保持在那里。如果你说:“给我看我未读的Slack消息,”那么未读的消息——为了总结它们,它们会暂时发送到服务器,之后如果你想,你可以删除它们。你可以直接说,“嘿,不要存储这些。甚至不要存储我的提示。”它会被清除。我们有一个零保留政策。即使你说:“我不希望你保存我的提示。”只需在隐身模式下浏览——就可以完成。你可以在服务层面关闭它。
我们的梦想是把智能也带到你的客户端。今天从算法上来说,这是不可能的。唯一的方法是发布一个较差的模型——然后体验会很差。它实际上不会起作用。
Matthew Berman:是的。
Aravind Srinivas:我推测越来越多的智能将会被传输到边缘设备上。这是一个渐进的过程——它不会一下子发生。
Matthew Berman:我希望如此。
Aravind Srinivas:我希望它会走上从大型主机到个人计算机的轨迹——它不必全部集中在超级计算机和巨大的集群中,而是将权力交到人们手中。我希望我们能在有意义的方式上为此做出贡献——通过软件构建、编写专用推理核心、进行蒸馏、制作专门用于控制应用程序和浏览器的模型。
AI对人类社会的影响
Matthew Berman:你提到过:如果一个工程师使用AI Agent并从中获得很多价值,也许他们可以多休息一段时间,和家人多待些时间。但很多人都担心AI会自动化他们的工作,而工作对很多人来说代表着身份。你对这个问题有一些强烈的看法。你提到过,乌托邦的部分是:“不幸的是,在短期内,将会有大量的劳动取代。”Anthropic的CEO Dario Amodei同意这一点。那么——谈谈这个吧。你认为AI是在取代任务、角色,还是介于两者之间的某些东西?
Aravind Srinivas:AI肯定会对社会产生这样的影响——那些站在AI前沿的人将比那些没有使用的人更具可雇佣性。这是肯定会发生的。每个人都忽视的一点是:这并不是AI对抗人类——真正发生的事情是:每当有一项新技术出现时——它从未如此快速地发展过。即使你告诉人们:“开始使用AI,学会如何使用AI,变得对你的团队更有用”——人类历史上从未如此迅速地适应过。我们在适应上很擅长,但这真的在测试我们的极限——尤其是在这种每3到6个月就发展的技术面前。所以这确实给人带来压力。也许他们最终会放弃。也许没有什么…就像,你为人们准备的关于当前最先进模型的教育材料,六个月后就会变得无关紧要。
Matthew Berman:所以听起来你相信这个行业里已经很老的格言:“拥有AI的人会取代你,AI不会。”
Aravind Srinivas:是的。但这不是你仅仅告诉人们,“嘿,去使用AI”就能轻松解决的问题。我只是认为——保持与时俱进会消耗很多人精力。结果是,一些人会失去工作——因为也许这超出了他们的学习极限。我希望我们能继续教育他们并分享用例。他们可以看YouTube视频,可以在Twitter或LinkedIn上学习——但这还不够。让我坦率地说:这还不够。更多的创业者需要出现,创造新的工作岗位——因为每家公司将需要更少的人。那些失去工作的人,要么自己创业,利用AI, 要么学习AI并加入需要雇佣少数人的新公司。会有一个过渡阶段,这个阶段的取代和转变都会发生。在这个阶段,你会看到一些人挣扎。而且不需要粉饰这一点。
我并不是在说Dario(Anthropic CEO)所说的极端情景——“作为一个社会,我们都完蛋了。”我也不是在说像Sundar(Pichai)所说的极度乌托邦的事情,他说,“我看到了过去新工作岗位的产生——比如YouTube创作者之类的。” 这不是同一回事。这不仅仅是另一次“新平台转型”。这从根本上把认知技能放到了API里。
Matthew Berman:我几周前采访了Box的CEO Aaron Levie。他提出了一个论点,认为随着AI的不断进步和人们的使用增加——我们实际上不需要减少公司里的人员。他特别提到了Box。他说:“如果我有一支团队,他们使用AI极为高效——他们不是应该是我最先投资、扩展的团队吗,因为他们正在体验超强的杠杆效应?”你怎么看这个?
Aravind Srinivas:这是一个很好的长期论点。我相信它。但这个论点的缺陷是:它假设总会有大量懂得如何使用AI的人。我只是想说——作为一个社会,我们不会那么快适应。主要不是因为我们的局限性——而是因为技术进展的速度。
它的发展速度快于我们通常的适应速度。所以它需要我们付出更多的努力来保持与时俱进。比如——你知道GPT-4和GPT-3.5的区别吗?也许因为你正在使用它。但大多数人根本不知道。大多数人仍然停留在默认的GPT-4.0模型上。现在浏览器Agent将要来了。到某个时候,它会使用你的计算机——填写表格——显然,有些形式的劳动力将不再需要。我希望人们尽最大努力。仅此而已。不要轻视这一点。少花时间在Instagram上做无意义的浏览。多花时间使用AI。不是因为我们想要你的使用——而仅仅因为那是你为新社会增加价值的方式。
原视频:Perplexity CEO: Browser Wars, Taking on Google, White Collar Jobs and More!
https://www.youtube.com/watch?v=DJahmKqFSIM
编译:Kun Yang,关注AI对齐和AI Agent等科技领域。欢迎交流。
请注意,本文编译自文末载明的原始链接,不代表Z Potentials立场。如果您对本文有任何想法或见解,欢迎在评论区留言互动探讨。
Z Potentials将继续提供更多关于人工智能、机器人、全球化等领域的优质内容。我们诚邀对未来充满憧憬的您加入我们的社群,与我们共同分享、学习、成长。
(文:Z Potentials)