刚刚,Cloudflare宣战AI爬虫:默认封杀,按次收费!

AI Agent背后的爬虫们,终于踢到铁板了!

互联网基础设施巨头Cloudflare今天宣布,将默认屏蔽所有AI爬虫访问其托管的网站。

这不是简单的技术调整,而是对整个AI产业的一记重拳

Cloudflare不仅要封杀,还推出了一套完整的解决方案:客户可以手动允许或禁止特定的AI爬虫,更重要的是,推出了 「按次付费爬取」 服务——AI公司想要网站数据?

可以,掏钱!

游戏规则变了

网络爬虫这个东西,原本是搜索引擎的专属工具。它们在互联网上漫游,消化和编目每个网站的在线信息。

但现在,开发者们用它来收集构建AI系统所需的数据

问题在于:AI系统不像搜索引擎那样提供同等的变现机会和信用认可。

Cloudflare的AI隐私、控制和媒体产品负责人Will Allen在邮件中写道:

「传统上,大家心照不宣的协议是:搜索引擎可以索引你的内容,然后它们会显示相关链接并给你的网站带来流量。但这种模式正在发生根本性改变。」

AI模型从网络上提取大量数据来生成输出,但这些数据源往往得不到认可,限制了创作者从自己的作品中赚钱的能力。

即使是那些包含AI生成答案的搜索引擎,虽然可能会包含原始来源的链接,但也可能减少人们点击其他网站的兴趣,甚至可能迎来一个 「零点击」的未来

三大利剑

Cloudflare这次是认真的,推出了三大举措:

精准控制权:客户现在可以针对AI生命周期的每个阶段(训练、微调和推理)分别允许或禁止爬取,还可以将特定的已验证爬虫列入白名单。

明码标价:客户可以设定AI爬虫爬取其网站的费率。想要数据?按次付费!

技术封杀:对于那些不守规矩的爬虫,Cloudflare准备动用其对抗DDoS攻击的经验来阻止它们。

媒体巨头纷纷站队

在Cloudflare的新闻稿中,美联社、时代杂志等媒体公司,以及Quora、Stack Overflow等论坛都表达了支持。

Stack Overflow的CEO Prashanth Chandrasekar在声明中说:

「为大语言模型提供燃料的社区平台应该因其贡献而获得补偿,这样它们才能重新投资于自己的社区。」

这话说得很直白:你用我的数据训练AI,就得付钱

技术对抗升级

爬虫本应遵守网站通过robots.txt文件提供的指令,但一些AI公司被指控无视这些指令

Cloudflare已经有一个机器人验证系统,AI网络爬虫可以告诉网站它们为谁工作以及想要做什么。对于诚实的爬虫,Cloudflare希望其系统能促进AI公司和网站所有者之间的善意谈判。

Allen写道:

「在互联网上寻找最新内容的网络爬虫只是另一种类型的机器人——所以我们在处理明显恶意机器人方面的所有工作,都有助于我们理解爬虫在做什么。」

对于真正的坏家伙,Cloudflare还有更狠的招数:让网站向它们发送AI生成的虚假网页,让它们白费力气。

但公司表示,希望新服务能够促进AI公司和内容生产者之间建立更好的关系。

看到这里,我的感受是:天下没有免费的午餐

过去二十年,互联网建立在一个默契之上:内容免费,流量变现。

搜索引擎爬取内容,带来访客;网站提供信息,获得广告收入。

但AI打破了这个平衡。

它像一个巨大的吸尘器,把互联网上的所有内容都吸进去,然后吐出一个个看似无所不知的答案。用户得到了答案,却不再需要访问原始网站。

这是一种新形式的「数字殖民」

Cloudflare的举动,本质上是在重新定义互联网的游戏规则。当基础设施提供商开始介入内容分发的博弈,整个生态系统都将被重塑。

但这也带来了新的问题:

当每一次数据爬取都需要付费,小型AI创业公司还能活下去吗?

当内容被层层设防,开放的互联网精神还能延续吗?

或许,这正是互联网从「信息自由流动」走向「数据精准定价」的转折点。

在这个转折点上,Cloudflare选择了站在内容创作者这一边。

因为他们知道:没有优质内容的互联网,就像没有水的河流




[1] Cloudflare will now, by default, block AI bots: https://www.technologyreview.com/author/peter-hall/


(文:AGI Hunt)

发表评论