深度|Perplexity CEO专访:AI搜索的未来不是“十个蓝色链接”,而是直接给你答案

图片来源:TechCrunch

Z highlights

  • 从一开始我们就很重视版权问题,而且一直在持续改进。就像你刚才说的,我们也在努力把来源标注做得更清晰,比如在正文中更明确指出这部分内容来自这个具体的来源,我们也确实在持续优化这方面的体验。

  • 我们要覆盖的,其实是那些用户在其他搜索引擎上已经习惯的日常需求场景。只要我们把这些基础打扎实了,用户就没有必要再回去用传统的十个蓝色链接那种搜索界面了。这就是我们的目标。想让用户改变习惯并不容易。传统搜索的习惯已经持续了二三十年了。

  • 事实本身是无法被版权保护的,它本就应该普遍被传播、被所有人自由获取。想象一下,如果过去科学家发现了某个事实还要对它申请所有权,别人就不能引用,那知识和真理根本没法被广泛传播。

Aravind Srinivas是印度裔美国计算机科学家、企业家,Perplexity AI的联合创始人兼CEO。他曾在OpenAIDeepMindGoogle等知名AI企业担任研究实习生或研究科学家,在OpenAI期间,他领导了强化学习团队,参与开发了ChatGPT,并参与了DALL-E 2的开发。TechCrunch是美国的一家知名科技类博客,Devin Coldewey是其撰稿人,主要负责对科技领域的新产品、新趋势等进行分析和评论。本次访谈首发于20241031TechCrunch频道。

如何界定抄袭Perplexity的引用规范与监督机制

Devin Coldewey好的,感谢你加入我们的访谈,Aravind。也感谢大家的到来。

Aravind Srinivas谢谢你邀请我。

Devin Coldewey那我就先开门见山地问一个问题吧,想先厘清个基本事实。你们公司对抄袭到底是怎么定义的?只有当你有了定义,才能避免无意间踩到这个坑。

Aravind Srinivas这个问题,其实你可以直接去问Perplexity本身。

Devin Coldewey我以为我现在正在问呢。

Aravind Srinivas哈哈,说实话,这真的是获取答案的最佳途径。不过严格来说,这也不是我们公司的定义问题,而是抄袭本身到底该怎么定义。Perplexity一直是明确标注信息来源的,它并没有声称自己拥有任何内容的版权。它的核心功能其实就是帮用户更容易获取互联网上已有的信息,把这些信息以更易于理解的方式进行总结,并且会清楚告诉你信息来源于哪里。这和记者、学者,或者学生写论文的方式其实并无二致——只要有参考文献和引用出处,这就是一种规范流程,对吧?

Devin Coldewey但从学术的角度来说,他们最终产出的是一份原创内容,只是借助引用来支撑他们的观点或成果。

Aravind Srinivas有时候,一家媒体首先报道了一条新闻,后来另一家媒体也报道了这条新闻,但会注明最早由某某媒体报道,这种情况算抄袭吗?

Devin Coldewey如果是我引用别人说的话,我会明确标注引用,并注明是对方说的。这是基本规范。不过CopyLeaks最近做过一个研究,他们发现,当Perplexity能访问某篇文章时,确实经常会直接使用那篇文章中连续的810、甚至15个词,然后在界面上用小卡片之类的形式标注来源。

Aravind Srinivas对,我们的来源信息就在页面最上方的source panel里,每句话的末尾也会有脚注,或者对应原文所在页面的链接。当然,这种标注并不总是精确到一字不差的关联,但很明确的一点是,我们在2022127日上线,到现在快两年了。那个时候,全世界的注意力都还集中在比我们早7天发布的ChatGPT上。但我们是唯一一个一开始就明确提出参考来源和引用很重要AI产品,而其他产品只是把互联网上的内容吃进模型里,输出时根本不标注来源。

所以,从一开始我们就很重视这个问题,而且一直在持续改进。就像你刚才说的,我们也在努力把来源标注做得更清晰,比如在正文中更明确指出这部分内容来自这个具体的来源,我们也确实在持续优化这方面的体验。

Devin Coldewey我相信你,因为你本身有学术背景。这对你来说是一个很重要的事情,而且从你们一开始就把引用机制做进去这一点也能看出来,这并不只是说说而已。但我之所以问你这个问题,不是为了故意挑刺,而是因为如果你说你不想做抄袭(plagiarism),那么你必然需要有一个对抄袭的定义。

举个例子,如果我自己把一段文字直接复制粘贴到我的文章里,我知道我做了抄袭,这也是为什么我不会这么做。那从理想状态看,你肯定也不希望你的模型去做这种事。所以,模型或者某个系统必须要能够识别到,哦,这里有点像直接复制粘贴了

你们有没有类似的监督机制?我问这个问题是有原因的,咱们聊完这个就可以换别的话题了。

Aravind Srinivas这里的原理其实很简单。我们的模型在训练时就被明确要求不要直接复现任何来源的原文,而是要对信息进行归纳总结,把不同来源的观点综合起来,真正聚焦用户问题,不能只是原封不动地把网上内容重新输出。随着模型在instruction following(遵循指令)这项能力上越来越强,这个目标也越来越容易实现。

AI领域,这通常被称为supervised fine-tuningSFT,监督微调),或者reinforcement learning from human feedbackRLHF,基于人类反馈的强化学习)。当然,我们并不自己完成所有底层模型训练,我们也会用其他开发者的模型,比如Llama这类开源模型。但没有任何模型是完美的。

很现实的一点是,无论什么模型,你都可以通过prompt engineering(提示词工程)或prompt injection(提示词注入)手段,让它做出违背原本指令的行为。这个过程本身就被称为prompt injection

Aravind Srinivas这个其实并不是我们产品的预期使用方式。我们的产品是为了回答问题而设计的。有些人会尝试用一种我们并不鼓励的方式,比如说帮我总结这个URL”,然后直接把网址粘贴过来。

Devin Coldewey所以你们其实并不希望用户这么用。

Aravind Srinivas对,我们实际上明确不支持这种使用场景,我们也尽可能去避免让模型执行这类指令。但说实话,现在还没有任何一家做AI的公司能拍胸脯说,他们有绝对的手段能完全杜绝某个特定的滥用场景。你总能用新的prompt engineering(提示词工程)手段绕过原本设计的guardrail(安全防护措施),然后我们发现了,再去补洞,不断迭代。等到某个阶段,产品的安全性就能达到比较稳妥的水平,也就是说,模型不会轻易按照某些滥用意图去响应,而是更符合预期设计去工作。

AI搜索的分歧路径:Perplexity为何与Google不同

Devin Coldewey所以,从更大层面来说,AI驱动、AI原生的搜索这件事,我们其实已经看到不少公司在做了。但我想,大家最有共鸣的还是Google。过去十年,Google把搜索搞得越来越复杂、越来越糟糕,什么摘要啊、各种widget、小工具,还有AI……作为一个做了1520年的科技记者,我可以说,这是我见过的用户普遍最反感的大平台改版之一。但好像有些公司就觉得:哦,Google这样也挺好。

那你们是怎么想的?你们是觉得,要把Google没做好的事,接着做下去,但做得更好?

Aravind Srinivas你看,其实Google从本质上说,始终是一家基于链接的搜索引擎。不管他们现在愿不愿意主动给你答案,他们真正赚钱的模式,依然是这个。甚至就在昨天的财报电话里,他们还在说,光靠搜索广告,一个季度就能赚450亿美元。所以这一块对他们来说,是业务核心。哪怕他们没有详细披露利润结构,但其实大家都知道,他们的利润,主要还是靠让你多点几个链接堆出来的。他们的激励机制,就是让你尽可能多看到、多点链接。

虽然现在他们也在尝试对某些信息型问题提供AI summary,但这还远远不是主流的使用方式。因为他们每天50亿到80亿次的搜索请求,大多数查询,其实都没有走到那个所谓AI summary的路径,这是现实情况。要不然的话,肯定早就冲击到他们的营收模型了,对吧?

而我们在做的事情,本质上是:Google.com,或者说Google的搜索框首页,从一开始设计的就不是让你去问一个具体问题的地方。Google上的平均搜索词长度,大概就两三个词。具体的统计口径不好说,但普遍估计大概是2.7个词左右。而在Perplexity上,平均每个查询大概有1011个词。所以,Perplexity的使用方式更接近于:人们来这里,是为了直接提出一个完整的问题。Google的使用方式更像是:你输入几个关键词,快速找到对应的链接。

当然,大家依然会用Google去查一些简单的事实,比如某个明星的年龄、比赛比分、或者旧金山的天气。这种使用方式,本身就决定了输入很短,直接想要结果。你也可以说,这两种产品都该满足这类需求——毕竟用户要的就是快速获取信息。

但除此之外,这两者在本质上是完全不同的产品。

Perplexity的新功能布局:不仅回答问题,更想重塑搜索习惯

Devin Coldewey我挺好奇你说的这些具体场景。首先,你最近这两周在Twitter上,疯狂发布新功能新玩法,简直一个接一个。我看了,差不多发了50条更新了。你刚才说,比如查比赛比分。你们现在也确实把实时比分功能做进Perplexity了,对吧?

Aravind Srinivas目前我们只支持NFL(美式橄榄球联盟)。

Devin Coldewey只支持NFL?那你们的数据是直接跟NFL合作拿的,还是从别人那儿抓的,还是怎么做的?

Aravind Srinivas不是,我们是和一家体育数据提供商签了数据合作协议的,跟Google其实用的逻辑是一样的。 没有人会去直接爬比分数据,因为要保证准确性,其实很难。

Devin Coldewey所以你们做这个,是因为很多人在搜海鹰今天的比分这种问题,还是因为有人想查最近20NFL的比赛数据这类更深入的问题?

Aravind Srinivas我觉得更像是后者吧。说到底,我们希望Perplexity是一个你能来问任何问题的地方,而我们的职责就是尽量给你准确的答案。显然,我们一开始也找到了一批核心用户。每个产品起步时,都会有自己特定的一小撮用户群体。比如Facebook最早是学生群体,Amazon最早主打卖书。早期互联网其实很偏学术圈,很多人喜欢建知识库、分享信息。在AI领域其实也是一样的。Perplexity刚起步时,用户也主要是学术型、研究型、知识导向这类人群,这也是我们一开始树立的品牌形象。但我们希望未来能覆盖更广泛的用户。任何人,关于任何事情,都应该能来这里提问。

体育可能表面上看和知识关系不大,但实际上体育圈里有很多“nerd”,他们关心数据、分析比赛、研究球员或者球队的历史表现、胜率预测,甚至只是不想看比赛但想快速了解结果。所以我们不只是给出一个实时比分,而是希望提供更多有深度的内容。比如赛事解说总结、球员对比、球队对比,甚至更细颗粒度的数据。这些东西,对于真正关心这个领域的人来说,都会有价值。

Devin Coldewey我注意到你们最近疯狂上新功能,像我刚才说的,这就只是你们过去一两个月内推出的几十个新功能之一。你们是有一个明确的产品策略吗?还是说,像霰弹枪打法一样,先把十个不同方向的功能全做出来,看最后哪三个能留下来?你们是在试图探索哪些功能对用户来说真的是有价值的吗?

Aravind Srinivas不是的,我们其实非常关注日志数据,看用户都在问什么、需要什么。

实际上,在做体育数据之前,我们优先做的是金融方向。因为我们的很多用户本身就在商业和金融这个垂类里,他们用Perplexity做市场调研、做投资组合管理,或者关注加密货币相关的新闻、研究其他投资人的投资策略、理解不同公司的股票动态这些。本质上,大家都是在试图理解世界,所以我们根据日志去判断哪里还能做得更好,哪些地方我们能提供比纯文字堆砌更有价值的体验。

这一点其实很重要。比如体育方向,很多用户之前就指出过我们有些回答存在hallucination(幻觉),比如比赛比分不准。所以我们要覆盖的,其实是那些用户在其他搜索引擎上已经习惯的日常需求场景。只要我们把这些基础打扎实了,用户就没有必要再回去用传统的十个蓝色链接那种搜索界面了。这就是我们的目标。想让用户改变习惯并不容易。传统搜索的习惯已经持续了二三十年了。

但如果这是一次范式转变,如果AI-native的信息获取真的是未来,那我们就要靠真本事去赢得这个机会。我们不仅要把帮你写代码帮你做学术帮你做金融调研这些做扎实,还得把那些很无聊的事情也做好,比如本地搜索、体育、天气、购物、旅游。只有把这些都做好,我们才知道我们的优先级该怎么排。

内容盗贼到合作共赢?Perplexity如何回应诉讼争议与商业模式质疑

Devin Coldewey你们最近还了一场官司。道琼斯那边直接说Perplexity内容盗贼帝国(content kleptocracy,这个说法还挺狠的。你们公开回应说,媒体公司其实是希望这种技术根本不存在。但我觉得事实并不是这样,毕竟你们和FortuneTime都已经有合作了,而原告News Corp其实也和OpenAI有合作协议。所以说他们并不是单纯地希望你们不存在。是不是因为,他们只是不接受你们提出的合作方案而已?

Aravind Srinivas他们说我们没有回应,这个说法不对。事实上我们在当天就做出了正式回复。所以我也希望外界能够理解,我们的态度一直是开放合作的,我们真诚希望能够和内容方一起探索合理的合作方式。

Devin Coldewey但具体要怎么合作呢?我们聊这些所谓分成协议,比如说分广告收入,那问题是——你们要怎么分?你们现在的商业模型到底长啥样?

Aravind Srinivas我们其实已经在几个月前推出了一个项目,叫Perplexity Publisher Program。这个项目的基本理念是,传统的内容许可授权其实只是一个短期方案。这里面有两个核心问题。

首先,AI公司其实可以分为两种类型。第一种,是去爬全网数据、用这些数据训练大型基础模型,这些模型把互联网上的文本内化到模型权重里,随着规模越大,模型对内容的记忆也越深,到最后模型本身就变成了知识的载体。第二种,是不把内容用于训练,而是在用户查询时,实时使用公开的web内容作为信息来源,做摘要或生成回答,但不会把这些内容纳入训练权重。

我们一直在努力向出版方解释,Perplexity属于第二种。所以不能拿第一类公司那套逻辑来谈,比如要求我们付费去拿数据做训练——那是第一类公司的商业模式,但对第二类公司并不适用。对第二类公司,我们在提出一套新的合作模式。现在其实还没有哪家媒体主动提出更合适的方案,所以我们就先把思路讲清楚:Perplexity本质上还是一个搜索产品,我们未来会通过广告变现。虽然我们给用户直接答案,但我们归根结底是做信息检索的,而这类产品最终的变现方式,毫无疑问是广告。

但不同于过去那种十个蓝色链接的传统搜索引擎,那些平台虽然赚了很多广告费,但基本从没给媒体分成。我们不一样。我们的承诺是:如果某个问题带来了广告收益,而你的内容被用作了答案引用来源,那么这部分广告收益我们会与你分享。如果我们的用户继续增长,广告收入也随之增长,那这套模式会让愿意与我们合作、允许我们引用内容的出版方获得长期可观的回报。

Devin Coldewey但媒体方的核心观点之一,其实挺容易理解的。比如说,我们也是媒体,虽然我们和你们没有什么合作,但问题就在于,如果我的文章被Perplexity引用进某个关于某个创业公司或某个系统的摘要里,用户就不会再点击去看我原文了。这直接剥夺了我们原本赖以生存的流量和广告收入。

这其实也是News Corp诉讼里强调的重点,他们的意思是,你说你和我们没竞争关系,但从结果来看,其实你就是在和我们竞争,就这么简单。我相信你们肯定不同意这个观点,但我想知道,你们是从哪里不同意的?

Aravind Srinivas首先我们不是一个新闻产品,根本没有人是把Perplexity当作获取日常新闻的工具来用的。

Devin Coldewey那你们为什么还要去不断抓取这些内容呢?

Aravind Srinivas户来到Perplexity是为了更好地理解某个新闻对自己的影响。比如说,有一条关于NVIDIA Blackwell GPU的新闻,假设出现了交付延迟,或者Jensen出来说一切按计划推进。用户会问:在这样的新闻背景下,我还应不应该继续买NVIDIA的股票?这种问题,你是不会去TechCrunch问的,但你会来Perplexity问。但同时你也不是来Perplexity获取Jensen说了什么新闻原文的,你要看原话,还是会直接去看原报道。

本质上,这是两种完全不同的产品。我们也在努力让外界更清楚地区分这些不同,教育大家理解这种用法的差异,甚至直接展示用户真实的使用场景。没有人来这里说,把那篇文章一字不差复制给我”——这种需求早就有其他网站在做了。网上有很多工具,只要你贴个链接,就能把背后的付费内容扒出来。但这根本就不是Perplexity的用例方向。

在法律边界内求增长:Perplexity的变现路径与版权破局

Devin Coldewey但你们确实是从整个互联网生态里获得了很多价值的。全世界有数百万内容创作者,他们在不断产出YouTube视频、文章、书籍、故事,发布到线上。那我们呢?我们要怎么参与进来?过去我们很习惯Google那一套嘛,要么投广告,要么在YouTube上变现。那在你们这样的体系里,内容创作者到底该怎么变现?

Aravind Srinivas我们当然非常欢迎大家参与进来。所以我们推出了Publisher Program(出版方合作计划),任何人都可以加入。除了广告收入分成,我们还会帮助合作伙伴基于AI打造原生的assistant体验,或者其他形式的AI助手服务,直接部署在你们自己的平台上。比如说,用户正在你们网站上看一篇文章,他们有后续的问题,想继续围绕这篇内容提问,完全可以直接在你们站内完成,无需跳转到Perplexity

为此我们可以提供API支持,包括大量API配额。同时,我们也会为媒体公司的员工免费提供我们的企业版产品——Perplexity的订阅服务,因为我们相信,这套产品能真正帮你们提升内容创作效率。无论是写新内容,还是做新闻调查,大家都需要查证事实,查背景信息,了解行业现状或某个具体对象。而我们本身就是业界顶尖的research tool,能够真正帮媒体人把研究做得更高效。

Devin Coldewey我明白你的想法。可能我不是学术背景出身,所以我们在什么叫找到源头信息我需要的是什么这类问题上,确实会有些根本性认知分歧。接下来假装他们(律师)都不在,咱俩随便聊聊。你也知道,咱们聊的是版权、诉讼这种事,这一块其实就是法律领域的无人区,非常复杂,从来没有前例可循。所以出现一些走错一步的情况也可以理解。有没有可能,你们在某个环节,无心之下,其实已经踩到了法律红线?我是认真的,你觉得有没有这种可能?

Aravind Srinivas我觉得我们已经把回应讲得很清楚了,我在博客里写的,就是我真实的看法。如果真的遇到诉讼,那我们当然会积极应诉,维护我们的立场。

Devin Coldewey你觉得现在的法律是不是该改变一下?为了让类似这种技术更容易发展?是不是应该让知识产权(IP)的流通变得更自由一些?

Aravind Srinivas其实现在关于版权,法律框架已经非常成熟了。而且过去很多裁决也已经明确了,事实本身是无法被版权保护的

Devin Coldewey是的,这个没问题。但问题也不光是事实啊,我又不只是写事实……

Aravind Srinivas咱俩又不是律师,所以这个争议我们在这也没法定论。不过我们的观点是,事实这种东西,本就应该普遍被传播、被所有人自由获取。你想象一下,如果过去科学家发现了某个事实还要对它申请所有权,别人就不能引用,那知识和真理根本没法被广泛传播。

Devin Coldewey这倒确实是个挺有意思的观点。我真是出于好奇想问你,那既然你们都说事实应该免费共享,那你们为什么要融资那么多?难道分享事实这事儿成本真的这么高吗?

Aravind SrinivasAI本身就是一件很烧钱的事情。我们当然希望未来能够把成本降下来,但现实是,GPU很贵,数据中心也很贵。所以那些提供基础模型的公司,必须通过推理服务(inference)收费把研发投入赚回来。而像我们这样的模型使用方,就需要为这些服务付费。

不过,目前的趋势是API成本大概每45个月下降一半。如果这个趋势未来还能持续一到两年,我们可能还会看到模型成本在今天的基础上再下降1050倍。对我们这种处于增长阶段的公司来说,这绝对是个利好,因为成本在下降的同时,规模还在提升。所以我们会优先关注增长,短期内接受一定的成本压力,因为我们知道这只是暂时的。随着规模化推进,我们也在不断探索更长期、可持续的商业模式。

我们认为,AI产品的变现方式其实不止订阅这一条路。虽然很多公司靠订阅模式已经跑通了,我们在这方面也做得还不错,但我们认为还有比按月付费更灵活、更合理的使用层面变现方式。这件事最终还是得靠我们自己去探索。如果我们找不到更好的路径,哪怕账上融了很多钱,最后也一样会出问题。但我们相信我们能把这件事搞明白。

Devin Coldewey你觉得你们能从Google那里抢走一部分广告收入吗?用户会转向你们吗?

Aravind Srinivas我不确定这是不是一个零和博弈。换个角度来看,广告主通常有一笔预算,现在这笔钱可能100%花在Google上,未来可能是95%Google5%Perplexity。但我并不确定市场真的会按照这种比例去转变。已经有先例,比如Meta的广告收入增长了,但Google的广告收入依然保持稳定,甚至还有小幅增长。所以,如果我们的广告收入增长,确实有可能会对其他公司的广告收入造成一定冲击,但我不认为广告主会立刻削减在其他平台的投入。

每当一个新的平台出现时,第一要务不是去收割已有的用户,而是要守住信任,不能为了广告收入过度优化,从而把这个产品存在的意义给毁掉。与此同时,也需要去努力让广告主相信:在这个平台上投放广告是安全的,没有品牌风险。比如怎么应对AIhallucination(幻觉),这些都还需要我们去做大量工作。我认为,至少还需要两年时间,我们才能把这件事真正摸透。

快问快答:拒绝回应的背后,创始人也为绿卡发愁

Devin Coldewey接下来我想做个快问快答,然后再聊最后一个话题。我说一个公司名字,你就回答还是不是,看你有没有收到过他们的邀约,不管是收购、acquihire(人才收购)还是其他什么斩首行动,都算。准备好了吗?OpenAI

Aravind Srinivas不予置评。

Devin ColdeweyMicrosoft

Aravind Srinivas不予置评。

Devin ColdeweyGoogle

Aravind Srinivas这个可以明确说,没有。

Devin ColdeweyNotion

Aravind Srinivas不予置评。

Devin ColdeweyAmazon

Aravind Srinivas不予置评。

Devin ColdeweyMeta

Aravind Srinivas……

Devin Coldewey快结束了,Meta

Aravind Srinivas不予置评。

Devin ColdeweyElon Musk

Aravind Srinivas不予置评。

Devin Coldewey过你们关系还不错嘛,你懂我在说什么。行了,别担心,我们不用深挖这个。说回移民的事,你今天刚在X(原Twitter)上发了条动态,说你最近也在折腾这些事。我想给你个机会,能不能借这个机会发发牢骚,或者给其他经历类似情况的人一些建议。你现在都已经在运营一家估值十亿美元的公司了,居然还在为了绿卡发愁,这听上去实在挺荒谬的。

Aravind Srinivas其实我并不是想表达说我就该被特殊对待。

Devin Coldewey不是的,我明白。这是很多人都要经历的事情,确实是个很煎熬的过程。我觉得你一定有一些想说的吧?

Aravind Srinivas是的,我对这个问题还是有一些基本了解的。美国的移民体系对每个国家都有年度名额上限,比如某个国家每年只能有多少人拿到永久居民身份。而我来自印度,申请的人非常多。再加上过去几年因为COVID积压了大量申请,这基本就是导致进度缓慢的主要原因。

但能不能做得更好?我觉得每个人都同意,这个系统本可以更高效一些。我发那条动态的目的其实就是希望通过吐槽,能让更多人关注这个问题。这只是我表达观点的一种方式而已。

Devin Coldewey嗯,我也是想借这个机会让你把话说出来。谢谢你分享。不好意思,今天聊超时了。感谢你今天接受采访,也感谢你的坦诚和配合。放轻松些,祝你一切顺利。

原视频:Perplexity CEO Aravind Srinivas on the rush toward an AI-curated web | TechCrunch Disrupt 2024

https://www.youtube.com/watch?v=d3boss5po9w

编译:Lyra Chen

请注意,本文编译自文末载明的原始链接,不代表Z Potentials立场。如果您对本文有任何想法或见解,欢迎在评论区留言互动探讨。

Z Potentials将继续提供更多关于人工智能、机器人、全球化等领域的优质内容。我们诚邀对未来充满憧憬的您加入我们的社群,与我们共同分享、学习、成长。

——-

(文:Z Potentials)

发表评论