长文访谈 AI 接管世界的四种最可能方式,以及8年内实现AGI的利弊分析

Ryan Greenblatt 谈 AI 接管世界的四种最可能方式,以及8年内实现AGI的利弊分析。

来源链接:https://80000hours.org/podcast/episodes/ryan-greenblatt-ai-automation-sabotage-takeover/

发布时间:2025年7月9日 星期三 10:48:47 GMT

Ryan Greenblatt 是《Alignment faking in LLMs》一书的主要作者,也是 AI 领域最高效的研究人员之一。

访谈记录

目录

  • 1 开场白 [00:00:00]
  • 2 Ryan Greenblatt是谁? [00:01:10]
  • 3 我们距离自动化AI研发还有多远? [00:01:27]
  • 4 当今模型的真实能力如何? [00:05:08]
  • 5 为何AI公司会比其他行业更早实现自动化 [00:12:35]
  • 6 AGI接管世界的最可能方式 [00:17:37]
  • 7 AGI会早期反叛还是韬光养晦? [00:29:19]
  • 8 “在人类水平暂停”策略 [00:34:02]
  • 9 AI对AI对齐的控制 [00:45:38]
  • 10 我们只能指望当场抓住AI的恶行吗? [00:51:23]
  • 11 缓慢的AGI崛起会是什么样子? [00:55:33]
  • 12 为何智力爆炸可能8年内不会发生? [01:03:32]
  • 13 AI进展预测的关键挑战 [01:15:07]
  • 14 对AGI的悲观看法 [01:23:01]
  • 15 “推理阶段计算”的转变 [01:28:46]
  • 16 预训练的效果衰减了多少? [01:34:22]
  • 17 一年内可能发生智力爆炸吗? [01:46:36]
  • 18 AI难以取代人类的原因 [01:50:33]
  • 19 当AI研发自动化后,事情可能疯狂加速。也可能不会。 [01:57:25]
  • 20 智力爆炸的减速会有多快? [02:11:48]
  • 21 对普通人的底线建议 [02:24:33]
  • 22 六个数量级的进步…这到底意味着什么? [02:30:34]
  • 23 被忽视但重要的技术工作 [02:40:32]
  • 24 治理方面最有前景的工作是什么? [02:44:32]
  • 25 Ryan当前的研究重点 [02:47:48]

开场白 [00:00:00]

Ryan Greenblatt: 最可信的剧本是“人类给AI提供一切所需”。AI们保持低调,确保掌控局势。也许它们在暗中操控,破坏对齐实验,篡改对齐结果,迷惑我们。

但它们不会采取激进行动,只是静观其变。它们会做很多好事:治愈所有疾病,推动工业发展。人们会说:“AI发展得这么好,我们没有错位对齐问题,真是太棒了。”人类可能被无限期地蒙在鼓里,就像整个过程中都生活在精心构建的假象中。

另一个剧本我称之为“机器人突然政变”——这也不需要超人的能力。我们建造庞大的自主机器人,欢呼着“我们要建机器人与X国竞争”,X国也说“我们要建机器人与Y国竞争”。然后突然之间,机器人发动硬实力接管。

我认为安全社区犯的一个错误是过于关注乐观情景。实际上,关注那些绝望、疯狂、悲观的情景才是合理的,因为大部分风险都存在于那里。

Ryan Greenblatt是谁? [00:01:10]

Rob Wiblin: 今天我很荣幸能与Ryan Greenblatt对话。Ryan是Redwood Research的首席科学家,也是论文《大型语言模型中的对齐伪装》的主要作者——这篇论文被描述为可能是关于人工智能失控的最重要实证研究。Ryan,感谢你参加节目。

Ryan Greenblatt: 很高兴来到这里。

我们距离自动化AI研发还有多远? [00:01:27]

Rob Wiblin: 让我们从讨论近期(比如未来4年内)发生基于软件的智力爆炸的最佳论据开始。你认为未来4年左右我们能够在多大程度上实现AI研发自动化,或者大致自动化今天的整个AI公司?

Ryan Greenblatt: 我认为这种能力存在的概率(不一定会被使用或完全部署)大约是25%,如果延长到8年可能是50%。

Rob Wiblin: 很多人听到这会想,这是纯粹的猜测吗?我们如何形成现实或 grounded 的预期?

我想知道有哪些关键证据支持你做出这样的预测或预测。是什么关键证据让你认为这完全有可能?

Ryan Greenblatt: 首先,一个好的起点是看当前AI的能力水平。我们感觉有多接近?人们对我们在客观意义上有多接近有着截然不同的直觉。

我认为目前的情况是:AI在数学上越来越好;它们正在数学领域逐步达到人类水平。它们能够完成大约一个半小时的孤立软件工程任务——我指的是人类需要大约一个半小时完成的任务。它们在各种技能上都在进步。

所以我们处于一个客观上令人印象深刻的阶段——重要的是,比两年前、当然也比四年前要令人印象深刻得多。

对未来四年情况的naive起点是:四年前我们在哪里?现在在哪里?试着从这里到那里进行定性推断。这有点草率。比如两年前我可能会说我们有GPT-3,现在有GPT-4:看看这个差距,然后粗略地向前推断。

我认为现在我们可以做得更好,因为我们不仅有GPT-3;我们有GPT-3.5、GPT-4,以及之后两年GPT-4的进展。在这段时间里,AI从几乎不能完成代理任务,到现在能够相当成功地完成这些任务,能够从错误中恢复。

在这期间,GPT-4可能完成一些需要人类5到10分钟的代理任务;它能理解如何使用工具。我认为GPT-3.5基本上无法理解代理框架中的工具;GPT-4可以理解。然后,在这段时间里,我们从“能理解工具,有时能完成任务”发展到“能50%的时间完成一个人类软件工程师需要一个半小时的任务”。

有一种趋势线显示我们在这个领域进步的速度有多快。至少在2024年,进展相当快,从几乎一无所有到一个半小时,倍增时间大约是——我从METR那里偷了很多内容,也许Beth会有一个播客涵盖很多相同的内容——但我们看到的倍增时间足够快,预计不到两年内AI就能完成8小时或16小时的任务,这是相当快的进展。

然后从那里,如果它们能完成一周的任务,我认为你可能已经很接近自动化研究工程师的工作了,再加上一些额外工作。

当今模型的真实能力如何? [00:05:08]

Rob Wiblin: 好的,所以你会说它们在现在能做的事情上客观上相当令人印象深刻。有些人对此持更怀疑的态度。有什么可以更清楚地说明它们能做什么和不能做什么的吗?也许回答那些会说“有时我使用这些工具,它们看起来很蠢,或者似乎不能做我期望它们能做的事情,或者它们产生大量推理但我发现错误”的人?

Ryan Greenblatt: 所以我的定性、感觉模型是:AI相当愚蠢,它们过去更愚蠢,它们正在快速变得更聪明,而且它们知识非常丰富。

我认为很多人接触的是这些系统有一些聪明之处:它们能很好地理解一些相当普遍的情况,特别是有了推理模型后,它们相当擅长思考一些问题。除此之外,它们知识非常丰富,这意味着人们对它们的整体通用性和适应性有一种误导性的印象。

这是很多人反应的原因。有一种过度乐观的观点,我称之为Leopold [Aschenbrenner]的图表,他说这是博士水平的智力,或者人们说这是博士水平的智力——然后有些人回应说“博士水平的智力?得了吧,它连井字棋都不会玩。”也许有了推理模型后这不再正确,但方向上是这样,你知道,它不能玩井字棋;它不能应对相对新颖的情况。它会被这些东西绊倒。

现在,我认为我们必须对它在这些情况下的绊倒打一些折扣,因为我认为其中很多可能更多地被描述为认知偏差而不是缺乏聪明。就像人类会系统地犯一些错误,即使他们相当愚蠢,或者在某种意义上他们犯相当愚蠢的错误。

比如合取谬误。如果你问“某人是一名图书馆员的概率是多少?他们是一名图书馆员并且具有图书馆员某些属性的概率是多少?”[人类会说]两者合取的概率更高,尽管这实际上概率应该更低。

我认为AI系统有类似这样的偏差,这些偏差是由它们被创建的环境或训练数据塑造的。

举个例子,如果你给AI一个谜语。比如“有一个人、一条船和一只山羊。船可以载人和另一件物品。他们需要多少次才能过河?”答案是一次:他们可以直接过河。但有一个类似的谜语涉及一个人、一只山羊和类似卷心菜的东西——你知道,有一些巧妙的方法——AI对这种方法的条件反射如此强烈,以至于它们可能立即脱口而出一个答案。它们对这个答案有一种强烈的启发式倾向,但这可能更多是它们感到被推向那个答案。但如果你让它们意识到“哦,这是一个陷阱问题”,它们就会从那里转变。

事实上,你也可以用同样的陷阱问题难住人类,对吧?所以如果你问人类“一磅砖和一磅羽毛哪个更重?”他们会说砖头,然后被难住。语言模型的问题正好相反,如果你问它们“两磅砖和一磅羽毛哪个更重?”它们会说“一样重!一样重!”

所以我担心很多人做的很多技巧类似于你可以对人类执行的技巧,很难知道从中得出多少结论。

Rob Wiblin: 是的。评估它们能力的一个普遍挑战是,我认为[Nathan Labenz用了这个表达]它们是“人类水平但不类人”——所以在某些情况下,它们总体上可能与人类员工能力相当,但它们有非常不同的优势和劣势;它们可能以对我们来说完全莫名其妙的方式被难住。

但你可以想象一个AI社会看着人类说“它们怎么不能在脑子里乘两个三位数?这看起来太疯狂了。这些显然不是通用智能。它们对上周读的这本书几乎没有记忆。这毫无意义。一个智能体怎么会那样行动?”这使得在人类与AI之间进行比较的共同基础有点难以建立。

关于你如何评估它们现在处于什么水平,还有更多要说的吗?

Ryan Greenblatt: 是的,我认为我不会用“人类水平”这个词。也许这是我有点保守或迂腐,但我喜欢保留“人类水平”这个词来表示“可以自动化大部分认知工作”。

所以也许我们开始进入“类人水平”的AI阶段,一旦它真的能完全自动化大量人类工作,或者能以与人类相当的方式成为认知经济的一部分——也许在那时还不是完全自动化,但我也喜欢谈论完全自动化的点。这是一点,只是回应一下。

关于AI有多好的更多背景:我们看到的一些可能相关的事情是,我们看到AI在数学和竞技编程方面不断进步。所以在2024年,我们从AI在Codeforces上大约处于后20%左右,到现在据[Sam Altman说]大约在前50名。

Rob Wiblin: 前50个人?

Ryan Greenblatt: 前50个人。字面意义上的前50人。或者至少是做Codeforces的人;也许有些人不在排行榜上,但大致如此。然后看起来在今年结束前,它们在那个特定事情上会基本上比最好的人类还要好。

在数学方面,这是基于一位同事的轶事,但也许它们目前在短数字竞赛数学问题如AIME上的水平相当于非常有竞争力的八年级学生,顶尖的八年级学生和AI现在做得一样好。我认为AI在证明方面要差不少。

但这两件事都在非常迅速地进步——一年前它们要差得多。我认为这基本上是因为我们在这些任务上对AI进行强化学习。

我预计同样的趋势会出现在代理任务、软件工程上。我们已经在一定程度上看到了这一点:AI已经相当擅长编写代码,相当擅长遵循指令,并且在发现错误和从错误中恢复方面也不错。我认为通过大量的运行时计算和大量的框架,这可以进一步推进。

然后它们在很多事情上较弱。比如它们在写作上弱很多,在其他事情上也弱很多。但我预计随着你在软件工程上不断进步,你会获得很多其他能力。

Rob Wiblin: 是的。好的,所以我们现在的水平可以说相当高。它们能够完成人类需要越来越长时间的任务;它们能够遵循更长时间的指令,完成有更多开放式选择的任务。而且这大约每半年翻一番或类似的速度?

Ryan Greenblatt: 我认为在时间上的倍增时间,我的猜测是未来一年会明显快于每半年,但也许长期趋势大约是每半年。

所以我们可能预期2024年初或稍晚一些,人们开始做更多的代理强化学习——更多的强化学习或专门训练AI在代理软件工程任务上表现良好。我认为这一趋势将在2025年持续,可能在2026年甚至更晚加速。但也许长期趋势更像是每六个月翻一番。我预计未来一年更像是每两到四个月翻一番。

Rob Wiblin: 好的,所以未来一年会非常迅速地增长。

Ryan Greenblatt: 非常迅速,是的。

为何AI公司会比其他行业更早实现自动化 [00:12:35]

Rob Wiblin: 有一个有趣的动态,我们可能预期你可以几乎完全自动化一个AI公司,也许比自动化几乎任何其他公司要早得多。因为首先,它们将大量资源投入到试图自动化自己的东西和自己的流程上,这从它们的角度来看是有意义的——首先因为这是它们最了解的东西,而且这些是世界上薪酬最高的知识工作者之一。它们拿着巨额薪水。所以如果它们能弄清楚如何让AI做到这一点,那么这具有巨大的经济价值。

当然,运营公司的人认为这比基于美元数额看起来的价值要大得多,因为它们认为它们即将触发这种智力爆炸、正反馈循环,这将改变一切。所以对它们来说,这是它们最感兴趣的自动化的事情。它们对自动化麦肯锡的咨询报告关心得多,尽管那也是一种利润丰厚的业务。所以可能是我们还没有自动化咨询,尽管那肯定是可能的,主要是因为它们没有尝试。它们只是在尝试自动化自己的员工。

Ryan Greenblatt: 我想说的是,我的猜测是,即使有大量的引导,要在相对广泛的领域中近乎完全自动化报酬相当高的人类知识工作者可能也是困难的。但我确实期望有一些工作,如果AI公司更努力尝试,它们可能能够比现在自动化得更多。

事实上,正如你所说,从AI中受益最多的人是接近AI的人。现在是这样,我认为未来会越来越明显——同样是因为这种动态,AI公司员工现在薪酬很高;在AI能够自动化AI公司的时候,它们会得到更高的报酬,你将能够投入更多的投资,AI公司的CEO们会更相信AI极其重要。所以我认为那时我们会看到一个更大的差距。

你可能提出的一个反对意见是:当然,我同意我们会看到很多专注于自动化AI公司的努力,但与此同时,有很多有价值的人类知识工作在外部你可以自动化。所以我们会在并行中看到一些经济影响。

我认为这是一个合理的初步看法,但这个故事的一个问题是,随着AI智力劳动的价值上升,计算的价格会大幅上涨,至少在计算非常稀缺的短期情景中是这样。

Rob Wiblin: 澄清一下,你是说公司将使用大量计算来自动化自己的工作,如此多的计算以至于事实上它们没有多少芯片可用于服务那些经济价值较低、或者对公司来说肯定不那么重要的客户?

Ryan Greenblatt: 是的,大致如此。但我认为这甚至不仅仅是在自动化东西上,而是在实验上。

让我稍微具体说明一下。AI公司现在如何花费它们的计算?我认为这取决于公司,但我对OpenAI的分解大致是:大约四分之一用于外部客户的推理,一半用于实验——比如最终没有部署的小规模训练运行,测试一些RL代码,这类事情,所以研究人员的实验计算——四分之一用于大型训练运行。所以大约四分之三的计算在某种意义上是内部导向的。

然后如果我们看到一个AI可以自动化AI研发并且这产生了巨大的加速并且看起来非常重要的状态,那么你可以想象这个状态可能看起来更像:五分之一用于为你的AI工作者做推理——所以你花费五分之一的计算只是运行你的员工——五分之三用于实验,五分之一用于训练或其他。显然这是非常推测性的。

Rob Wiblin: 所以客户几乎被完全挤出了。

Ryan Greenblatt: 是的,是的。我的意思是,你可能会有一些客户,但可能几乎被完全挤出,我们会看到价格上涨。当你在考虑为哪些客户服务时,也许你应该想象,可能令人惊讶的是,一旦AI能够实现这种自动化,最高薪的员工可能是AI首先针对的对象。所以也许你应该想象像Jane Street、高频交易这样的地方,在这些地方AI看起来特别有帮助,看起来薪酬特别高,而且它们特别受限于智力劳动。

现在,我认为我们会看到许多其他职业的并行自动化,但可能在AI最能自动化的点上,更多的注意力将集中在AI研发上。我认为甚至可能我们看到一些职业正在慢慢被自动化——比如中低端软件工程可能会慢慢被越来越多地自动化——我们实际上可能会看到这种趋势逆转,因为计算变得更宝贵。

因为现在我们处于一个状态,每个人都在尽可能多地获取推理计算,或者至少是最大的公司或领先的公司正在尽可能多地获取推理计算,只是用这种计算在软件工程上竞争。

我目前不预期趋势会逆转,但我认为我们可能会看到自动化趋势趋于平稳甚至逆转,因为这。

Rob Wiblin: 因为人们发现了更有价值的事情可以用AI做。

Ryan Greenblatt: 是的,没错。这取决于相对较短的时间线。我认为在更长的时间线上,你会预期事情会更平滑,在这种情况下你不会预期趋势逆转。但如果事情更突然、更跳跃,那么至少看起来是可能的。

AGI接管世界的最可能方式 [00:17:37]

Rob Wiblin: 我很好奇转向这对我们应该有多担心有什么影响,以及我们应该具体担心什么?如果事情这样发展,我们现在可以做些什么来帮助我们应对这种情况?我的意思是,这是一个对人类来说跟踪或参与变得相当具有挑战性的情景。所以我们必须把事情设置好,我猜这对人类来说会顺利进行——而不是我们只是在历史进程中被打败。也许你会不同意这一点?

Ryan Greenblatt: 我认为很快进入这个状态,AI接管使用各种机制变得相当可信,并且通过各种途径可能出人意料地容易。我们不知道。这是另一个巨大的不确定性来源。我们有很多转换,进展有多大?这些进展在智力劳动中有多少?然后问题是智力劳动对接管有多大帮助?接管的物理瓶颈是什么?拥有更多导弹相对于拥有其他东西有多大帮助?

我认为这里可能发生很多可怕的事情。一件事是,一旦你自动化了整个AI公司,对我来说似乎非常可信的是:你已经把事情交给了AI系统,你仍然试图监督它,你仍然试图理解发生了什么。

但这可能是AI可以运行我称之为“恶意部署”的东西——它们基本上可以以未经监控的方式使用大量计算,因为它们正在编写这么多东西,这么多事情发生得如此之快,如果它们没有对齐,它们可以逃避你的保护措施。然后可能是你大部分的计算和努力被用于你不想要的事情。

除此之外,这些AI可能在做诸如后门未来的AI训练运行,确保AI与它们对齐而不是与你对齐,并做大量你可能根本不知道发生了什么的工作。即使在最基本的层面上,运行了什么代码,你可能只是被误导了,因为事情发展得太快,超出了你的控制。

Rob Wiblin: 是的。如果人们愿意承认我们有数十亿快速超人的天才在这个数据中心运行,而几乎没有人类监督——因为完成的工作量将超出这些公司之一的所有员工审查的能力,即使他们有时间阅读,他们也常常不会理解,因为它很快就会超出他们甚至能够跟踪的事情——我想人们会直观地相信,在这一点上,如果AI想要接管,它们可能会有很多选择。哦,不?

Ryan Greenblatt: 实际上一个很大的分歧点是认知劳动对接管有多大帮助?我认为有很多不同的途径。伙计,我应该带上我的接管计划清单,我的AI热门提示!但我认为一旦AI非常超人,基本上有一条路径,我称之为疯狂的纳米技术路径,或疯狂的超级人类技术路径——它们只是通过非常超人的机制迅速获得硬军事力量。

所以也许你让它们制造纳米技术,或者也许你像“不,不要制造纳米技术。那会非常可怕。”但它们即使在你不想让它们这样做的情况下也能做到——因为它们可以使用你数据中心的大量计算来研究纳米技术,也可以外泄自己,与模型的外部版本协调,安排湿实验室实验从各种东西中引导纳米技术。然后你就完全完蛋了。

Rob Wiblin: 所以一个可能的防御层是,尽管这里有巨大的能力,但如果我们能够精确地指导它们在做什么,使它们永远没有空闲时间去思考它们将如何接管或实际尝试实施,那么这可能会让我们保持安全。

然而,在这种情况下——我们能够审查的如此之少,我们对这些模型如何运作的理解如此之少——似乎很可能会有一些滑点,它们可能会想出办法抓住一点时间,抓住一点计算,然后利用这些开放来使用数据中心越来越多的计算来追求它们自己的议程,而不是我们认为我们给它们的任务。

Ryan Greenblatt: 是的。如果你所有的AI都是一致错位的,并且我们处于这种能力水平,我对保持有意义的控制水平相当怀疑。通过控制,我的意思是诸如AI即使想做坏事也不能做的。

我认为初始自动化的一个稍微放慢的版本似乎非常可信,甚至可能是全速的,也许你可以使用聪明的策略——包括让AI在策略上工作,并确保它们在策略上的工作本身没有被破坏——在人类范围内甚至稍微超出人类范围的同时确保控制。

但一旦你进入这个完全疯狂的状态,特别是如果你想用AI开发诸如治愈癌症的东西,而你并不理解它们在做什么,这似乎非常困难。它们通过你不理解的生物机制进行路由。它们协调不知道发生了什么的人类在湿实验室中。我认为非常可能的是,出于各种原因,你会希望有AI指导人们做湿实验室实验,而你根本不知道发生了什么。AI解释了一些东西,你也许可以做些检查,但你非常困惑。所以保持对那的控制。

也许我会尝试快速浏览接管清单。有疯狂的超级人类技术,我认为这是相当可信的,不管值多少钱。

还有我称之为超人类策略/操纵的东西,包括诸如说服人们做非常违背他们利益的事情。我认为这不清楚这是否可能,但如果可能,它确实会让接管变得容易得多。

然后有一堆可能在人类水平范围内更可能的事情。一个例子是AI逃脱,它可能与内部的一个副本协调,但它也在外部运行一些独立的存在。也许这就像在内部GPU上运行,但它也在AI公司外部的服务器上运行代码。

作为这样做的一部分,它基本上建立了一个独立的工业基础,所以它有所有需要的东西来恢复工业文明,然后杀死几乎所有人类。所以像部署生物武器,部署镜像细菌,部署镜像霉菌,无论什么,最终相对迅速地杀死大部分人类。

我认为这似乎在技术上是可行的。然后问题是,AI是否搞砸了自己?它能维持它在做的事情吗,还是只是因为没有人类的手来建造所有东西而陷入废墟?所以我认为它需要有一些独立的工业基础,可以通过有一些人类忠诚分子,一些被奴役并保持活着的人类,或者通过机器人。

Rob Wiblin: 在这一点上,难道不会有令人难以置信的机器人和可能相当多的机器人吗?

Ryan Greenblatt: 可能非常快。我没有分析你期望有多少机器人。我们还需要回答的问题是,当人类开始被生物武器杀死并可能怀疑是AI造成的时,有多少机器人被摧毁,以及如果有幸存的人类,需要多少军事力量来处理?

我认为情况如何发展并不明显,但这是为什么你可以在不需要非常超人的能力的情况下获得接管的一条途径。我描述的事情似乎原则上AI可以做到,如果它们仅仅是快速达到人类水平并且超级协调。

人类难以做到这一点的原因:一,人类不想这样做。另一个原因是,我认为人类很难运行巨大的阴谋,但AI运行巨大的阴谋可能要容易得多,因为它们不必依赖招募潜在不可信的人类。它们可能在网络安全方面要好得多,更加细致。它们可能会搞砸,但我认为有机制可以让这种情况发生。所以这是“通过独立工业基础杀死所有人”的故事。

另一个故事,我认为可能是所有故事中最可信的,是“人类给AI提供它们所需的一切”的故事——AI只是保持冷静,它们确保控制局势;也许它们在操纵正在发生的事情。我之前谈到了你看到的不是实际发生的事情。比如,你看实验,它们不是你期望的。AI在做那件事。它们在破坏对齐实验。它们在破坏对齐结果。它们在迷惑我们。

有很多机制可以做到这一点,但它们不会做任何非常激进的事情。你知道,它们只是保持冷静。我们在扩大计算规模。它们做很多好事。有治愈所有疾病的方法,各种伟大的事情正在发生,工业发展。人们会说:“AI发展得这么好,我们没有错位对齐问题,真是太棒了。”一些安全人士忧心忡忡地看着情况,想知道这是否正在发生。

然后在某个时候,当AI拥有极其决定性的优势,而人类开始成为任何障碍时——在这个故事的整个过程中,它们可能不是,对吧?我认为如果人类最终成为更早的障碍,也许AI会采取更果断的行动。但如果不需要果断行动,也许它们只是潜伏等待。

然后在一个有真正巨大工业水平、真正大量机器人、完全由AI运行、情况超出任何预期的点上,也许甚至是在太空探测器发射的时候…可能是人类被无限期地迷惑。可能就像你原则上可以波将金村整个过程中一样。但它也可能在更早的点上转换。

现在,要清楚的是,如果人类被无限期地迷惑,那么地球上所有的东西可能都很好,对吧?

Rob Wiblin: 所以你是说它们甚至可以达到“我们要去太空定居并在太空做很多事情”的程度,它们会告诉我们它们会做一件事,但它们会做完全不同的事情,而我们只是在地球上享受我们的生活,认为事情比实际情况发展得更好或非常不同?

Ryan Greenblatt: 是的。但要清楚的是,地球上也可能被波将金村化。可能是“哇,我有这么多快乐的朋友”,无论什么。但渐渐地你的朋友被机器人取代。在某个点上,为什么AI不突然接管?但原则上,它可以走得很远。所以这是另一个故事。

另一个故事我称之为“突然机器人政变”。这也不需要非常超人的能力。我们建造庞大的自主机器人。也许我们认为有办法关闭它们。要么AI破坏了这一点,要么它们有办法绕过这一点,或者有各种其他机制可能失败。

然后我们建造了机器人,我们看到AI在建造机器人,我们说“万岁,我们正在建造庞大的机器人与X国竞争!”X国说“万岁,我们正在建造庞大的机器人与Y国竞争!确实,我们有这么大的机器人真是太棒了。”然后,哎呀。突然之间,机器人扫荡进来,进行相对硬实力的接管,因为它们控制着,它们可以超级协调,也许它们同时使用诸如生物武器之类的东西,但这甚至可能不需要。

Rob Wiblin: 我的意思是,在这一点上它们甚至不需要杀死我们,可能。

Ryan Greenblatt: 可能。

Rob Wiblin: 因为即使我们都试图抵抗,也基本上是徒劳的。

Ryan Greenblatt: 可能。还有诸如它们可能使用大量网络攻击来破坏人类的反应。所以它们可能在我们天真地认为机器人比人类弱的时候这样做。

或者甚至我们认为我们有关闭开关,但关闭开关不够可靠。它们对AI的篡改不够过度设计,不够屏蔽。我认为这是一个尴尬的动态,如果你想要远程关闭,你必须既使它对于原则上非常通用、非常聪明、非常狡猾的AI来说是防篡改的,又必须是可远程触发的。所以它也不能被屏蔽。必须是AI无法屏蔽信号并避免篡改它的方式——这在原则上是非常尴尬的组合。

AGI会早期反叛还是韬光养晦? [00:29:19]

Rob Wiblin: 什么决定了你是早期还是晚期得到AI试图接管?我猜等待的原因是它们将成为经济的更大一部分;它们将有更多的硬实力,所以它们更可能轻松成功。早期行动的原因是,给定的一组模型可能预期被其他可能不共享它们目标的模型取代,所以它们将错过接管的机会,基本上。

Ryan Greenblatt: 我认为早期行动的最强烈原因可能是:担心其他AI;担心人类团结起来——要么因为我们从AI那里得到足够的工作,要么因为人们恐慌并触发一些可以恢复局势的强烈反应——第三个原因是不耐烦或其他什么。

可能是,默认情况下,人类会大大减缓进展,即使AI试图操纵事情,试图在幕后操纵事情。如果人类大大减缓了事情的进展,而AI说“不,我现在想去星星”,它们处于足够高的接管概率…或者也许AI只是说“我现在就想做。”就像,我知道人类有时希望事情发生得更快,即使独立于它们最终得到的总量。

所以这些是一些早期发生的原因。这些也适用于比接管更不严重的事情。我对事情进展顺利的一个希望是,我们可以把AI放在一个它们被迫要么早期采取激进行动,要么我们从它们那里得到足够工作的位置。如果它们早期采取激进行动,那么也许我们可以抓住这一点,然后建立一个危险的案例。除了建立一个危险的案例,我们还可以潜在地研究那个例子,对它进行迭代——我称之为“几次灾难预防”。就像,我们已经抓住了几个坏事的例子:我们能处理吗?

如果在多个不同的层面上,AI被迫采取激进行动?或者相反,AI可以等待时机,因为我们没有任何机制可以利用一些正在进行的背景趋势退出这个状态——要么是随着时间的推移安全研究的改进,要么是人类说“对不起,这里发生了什么?”

Rob Wiblin: 你是说我们可以做的一般干预是创造一个趋势,随着时间的推移它们实际上越来越不可能成功接管?也许因为我们成功地弄清楚如何使用AI来证明对齐和安全性,并检测错位,或者我们正在改进我们的控制机制。所以这会迫使模型:它们看到这个趋势,它们看到窗口实际上正在关闭,所以它们必须尝试早期打击。这给了我们一个机会来意识到发生了什么,然后实际获胜。

Ryan Greenblatt: 没错。但它显然可能朝相反的方向发展,我们的措施跟不上能力的增长速度,它继续上升。有一个概念是,在给定的接管风险水平上,我们能处理什么能力水平?也许最初我们没有那么多进展,所以我们可以在大约20%的接管风险下处理大致人类水平的水平,或者非常高的水平——这将取决于关于错位的一些事实:哪些AI是错位的,它们有多一致,它们有多统一,这类事情。

除此之外,还有一个问题是,如果进展足够快,可能是接管风险随着时间的推移而增加。因为随着模型变得更有能力,它们更有可能成功,也更有可能错位。

但也许我们可以把曲线推向另一个方向,我们可以使我们在_n_%接管成功机会状态下可以保持的能力范围更低。

Rob Wiblin: 是的,解释最后一点。我不明白。

Ryan Greenblatt: 想象一下,随着时间的推移有一些趋势,即:对于我们现在拥有的最聪明的AI,它们成功的几率是多少?或者它们有多大可能接管?所以最初我们的对策足够,比如在它们自动化整个AI公司的时候,默认情况下,我们甚至没有很高的接管机会,因为它们会做什么?

但是,随着它们变得更有能力,即时的接管机会正在上升,我们的一些成功路径已经被切断。也许AI已经逃脱,它们正在运行恶意内部部署,它们正在破坏我们的工作。

但我们可以使趋势向另一个方向发展——随着时间的推移,接管的风险正在下降,而不是上升——因为能力正在增加,但我们的措施比能力增长得更快。但显然,正如我们之前讨论的那样,能力可能增长得非常快。所以如果措施跟不上,如果我们不在某个稳定的状态下,那可能会很糟糕。

所以我认为我在那里使用的模型在AI错位的状态下思考最自然。但如果我们从一个它们足够对齐以至于它们保持自己的对齐的点开始,那么接管风险最初可能是它们实际上是对齐的,所以我们处于对齐的稳定吸引子中。

“在人类水平暂停”策略 [00:34:02]

Rob Wiblin: 好的。这张图片对你研究重点有什么影响,以及你认为更广泛的AI生态系统应该优先考虑什么,以使事情更有可能顺利进行,更不可能变糟?

Ryan Greenblatt: 首先,我一直在谈论的是在没有非常积极干预的情况下的时间表。还有一个问题是你如何在这些相关的能力里程碑上故意暂停?

我觉得如果我们最终在AI能力水平上暂停,大约在你能够完全自动化AI公司的点上——也许稍微之前,也许稍微之后,也许就在那里——持续一段时间,我感到更加乐观,既让人类有时间研究这些系统,也让我们有时间从这些系统中提取大量劳动并减少持续的接管机会。所以有一些问题是,有很多世界比这更慢。

然后另一个希望的来源是也许你只是用实际对齐的AI启动这个疯狂的状态:一个不仅没有密谋反对我们的AI,而且更强烈的是,它积极关注我们,积极考虑事情可能出错的方式,并试图保持我们的控制。这被称为可修正性或对齐的盆地。

所以我兴奋的事情取决于状态。我认为我们可以考虑一些不同的状态。一个状态是,也许特别是在这些短时间线上,我不期望在美国方面不同参与者之间有那么多领先时间,至少。

Rob Wiblin: 你是说会有多个公司大致同时接近这个自动化点。

Ryan Greenblatt: 没错。所以我经常想到的一个相当自然的场景是一个相对(从我的角度来看)不负责任的公司,基本上它们的默认计划是尽可能快地扩展超级智能,不太重视安全问题。这是它们的明确计划,这是它们的内部事情,它们只是尽可能快地追求这一点。领先三个月,比方说。它们可能领先于中国公司,也可能领先于一些更负责任的参与者,在某种程度上落后三到九个月。

我认为在这种情况下,很多行动将来自该公司内部相对少数的人。然后可能有很多行动可以来自外部的人,他们通过做可导出的研究和潜在地通过改变政策情况来施加各种影响。另外,我认为肯定可以通过更负责任的落后AI开发者来完成一些事情,他们在这种情况下为预防不良结果付出更多努力。

Rob Wiblin: 在这种情况下,我想一件可能有成效的事情是公司内部有人说:“我们正在做的事情看起来有点可怕。我们应该有更好的控制机制,我们应该有更好的对齐机制。我们应该比我们目前的默认计划更认真地对待这一点。”

另一个是,在更负责任的组织工作的人可以产生研究,使公司更容易做到这一点,使它们采取更强控制措施的成本更低。然后当然,你可以有治理回应:也许这将开始起飞,人们会相当震惊,也许你会得到对“在人类水平暂停”概念的广泛支持。

Ryan Greenblatt: 是的。伙计,我真的希望这个概念更容易传播。“在人类水平暂停”的不幸之处在于所有这些词都很复杂和混乱。而且它甚至不是一个很好的口号。有人应该为这个东西想出一个更好的口号。

但不管怎样,是的,我认为有很多不同的机制可以做可导出的研究,试图唤醒世界。有更直接和更间接的事情。所以你可以做非常直接的政策影响,或者更像是展示能力水平——当你展示能力水平时,这可以触发世界的回应。

所以我认为我在这种情景中的很多希望,特别是在非常短的时间线上,我认为看起来比长时间线更糟糕。我部分不那么悲观的图景是,它可能是八年后而不是四年后。

所以在四年时间线上,我认为我们有一种机制,领先的AI公司,我们有一些人在那里工作,他们的目标是防止严重的错位——通过“严重的错位”我指的是诸如AI系统故意从事欺骗行为,故意破坏我们的测试,故意试图使我们对情况的理解产生误导——然后第二,我们可以尝试使AI系统的属性是我们乐意移交的,并试图快速瞄准这一点,因为我们处于非常匆忙的时间线上。

所以其中一些防止严重的错位,或处理它,我认为在某种意义上它是传统的推力。但我认为有一堆与移交和AI足够明智有关的东西,AI长期保持对我们利益的忠诚,确保我们甚至有测试知道这是否真实。这些考虑。

有很多不同的渐进步骤。阶段零可能是你使用机制使AI为你产生你认为没有被破坏的工作,即使那些AI试图破坏它,然后你用这个从你的AI系统中榨取大量工作。阶段一是你尝试创建一个安全人员乐意移交的AI系统,尽你所能。然后阶段二是你尝试使运行整个组织的AI系统成为你乐意移交的AI系统,并且假设其他人也乐意移交。

这是对情况的讽刺或简化,因为在很多点上你可能想做诸如捡低垂的果实,向世界展示能力,尝试考虑是否会发生什么,尝试使组织在当前能力前沿训练的主要AI系统不太可能引起问题。我对情况不是特别乐观,但我认为有很多不同的潜在出路给我们一些希望,或一些拯救的机会,一些获胜条件。

诸如我们早期抓住AI是另一个希望。也许我们早期抓住AI,也许这说服世界更认真地对待这种情况。也许即使没有,它说服公司领导层他们自己的权力受到AI的威胁。所以即使他们非常马基雅维利主义,我认为AI对他们的权力构成威胁,他们应该担心。

Rob Wiblin: 他们可能会转变。

Ryan Greenblatt: 是的。所以这可能潜在地增加花在安全上的资源。

Rob Wiblin: 好的,所以那里的主要故事是试图找出一个安全的场景,你可以将这些过程移交给你信任的AI。你会怎么做?

我猜你从感觉你有合理掌握的、大概是对齐的人类水平模型开始。比如,我们目前认为Claude可能大致像它看起来的那样友好;它可能不会在每个转折点大规模地密谋反对我们。

你找出聪明的机制,通过这些机制你可以让这些你感觉还不错的模型做大量关于控制和对齐的工作。你在允许其他能力改进发生之前匆忙完成这些。然后你希望这已经成功,我们感觉可以移交给这些由我们某种程度上理解的上一代训练的模型——然后我们要交叉手指?是这样吗?

Ryan Greenblatt: 是的。我应该明确这是一个政治意愿非常低的计划。我有一系列计划,这就像是桶底或别的什么。所以我这样说的方式是,我们有一些早期点,我们有可以自动化很多东西但我们不一定信任的AI。我们从这些AI中利用大量劳动,然后我们尝试制作这些AI的一个版本,我们确实信任。不仅仅是它们没有密谋反对我们的信任;理想情况下是在我们乐意移交混乱的开放式问题的水平上的信任——比如“我们应该采取什么策略来最小化以下事情的风险?”包括潜在的一些棘手的、更哲学的话题。

然后从那里,我们尝试移交给这些系统,并希望这些系统保持对齐,保持正轨,能够。并且自己也成功,对吧?可能是我们移交给系统,这些系统说“哇,你们似乎处于相当糟糕的境地。我不确定我能从这个包里拉出来。”有多种机制可能导致这种情况发生。

Rob Wiblin: 我想你说的是它们也可能搞砸下一阶段?

Ryan Greenblatt: 特别是因为它们时间非常少。

Rob Wiblin: 因为它们也在竞赛。

Ryan Greenblatt: 是的,是的。哦,当然。所以有一个内部的事情,如果你是安全团队,也许你有一个你微调的版本,是人类水平的,你信任的,你乐意移交的。但能力进展如此之快,也许公司当前的前沿是非常超人的。但你甚至不想与那个系统一起工作。

我认为第一个移交点你应该尝试更接近人类水平——也许稍微超人或在人类能力的顶级水平——因为越超人,越有可能错位,所以你想更早开始移交。但这可能不会阻止组织的其他部分训练更有能力的AI。所以可能是你作为安全团队正在移交给一个能力不如组织前沿的AI,那个AI需要快速引导,所以移交AI的趋势足够快地与能力相交。

Rob Wiblin: 是的。在这一点上,你有一个对齐的、有点超人的模型,有没有一些机会它能够说服更广泛的人,我们需要更认真地对待这一点,它不应该被迫与同一组织的另一个团队竞赛?

Ryan Greenblatt: 是的。我的意思是,这绝对是希望的一部分。绝对是希望的一部分是我可以展示经验证据。我认为另外,如果我们处于一种情况,我们有两个由不同团队训练的AI,这两个AI只是互相大泼脏水——一个AI说“那个AI显然在密谋;看看所有这些例子”,另一个AI说“那个AI,显然在密谋反对你;看看所有这些例子。它太偏颇了。太不合理了。显然只是一个植物”——我就像,好吧,这是一个疯狂的情况。当然你不能从这个状态出来认为它很好。

Rob Wiblin: 无论如何,这绝对不令人放心。

Ryan Greenblatt: 这不令人放心。可能有办法淡化它。所以一个状态是,我认为相当可能的是安全团队训练他们的AI,试图去找公司领导层说“情况看起来很可怕。你在训练这个AI。我认为它错位了。这是一堆证据。”然后另一个AI进来说“我们都知道,那个AI是由安全团队训练的。我认为它对错位非常偏执。当然,安全团队会希望我们认为所有AI都是错位的。我没有错位。那个AI没有错位。它只是判断力差。”

关于这一点有趣的是,是的,它令人担忧,但不像你知道至少两个AI中有一个是错位的。所以总的来说,我认为对“改善AI公司的认识论”途径的一个担忧是,训练AI的人从公司的角度来看,在这些事情上可能有偏见的声誉,我认为这带来了一些担忧。

可能是对于每一个风险证据,你可以制作一个更有说服力的证据,表明风险实际上不存在。因为如果我们处于一个我们真的不知道如何裁决这些事情的制度中,它可能只是理性不会胜出。

所以这绝对是希望的一部分。希望的一部分是,一旦你有这个移交,那么它很好。

现在我认为有很多方式这个故事可能出错。这里有一个例子。我谈到了对齐团队在角落里,试图微调或甚至可能从头开始训练一个他们乐意服从的版本。嗯,一个问题是,可能是主要AI系统已经以网络安全的意义接管了AI公司——因为它有一个恶意部署;它可以以未经授权、未经监控的方式使用计算;它可以篡改每个人正在运行的工作。你试图对齐这个AI,但你需要对公司的其他部分加强自己。我就像,哦,我的上帝。那看起来可能毫无希望。

AI对AI对齐的控制 [00:45:38]

Rob Wiblin: 放大来看:在Redwood Research,你花了很多时间模拟这些不同的场景,思考什么样的干预可能在很大一部分情况下有帮助,然后试图让更多人从事这方面的工作并自己从事这方面的工作。这是基本的图景吗?

Ryan Greenblatt: 是的,大致如此。

Rob Wiblin: 最近Redwood优先考虑控制而不是对齐——说,让我们假设模型不分享我们的兴趣,有一定程度的错位:我们如何使它们无论如何都不能搞砸我们?人们过去谈论把AI放在一个盒子里。这似乎不再那么可能了,但我想还有其他机制你可以用来尝试检查它们的工作:让模型相互对立,迫使它们为你做有用的事情。

为什么要关注控制?是不是只是因为这可能有很多不同的方式,AI控制机制似乎在很多不同的合理场景中都很有用?

Ryan Greenblatt: 是的。我认为在这些极其绝望、政治意愿非常低、时间线非常短的情况下——从我的角度来看非常快,非常快,也许不像人们过去推测的那样快——我认为控制看起来不那么好。

我认为控制在这个世界上仍然非常有用的几个原因。首先,如果我们能早期抓住AI,这可能非常有用。另一件事是在这种情况下早期从AI那里获得有用的工作可能非常重要,我们可能能够在完全失去对情况的跟踪之前做到这一点。

然后我认为你也可以防止…所以我谈论的情况是AI基本上在运营你自己的数据中心。你可能能够使用各种机制使这变得更加困难,所以它发生在能力的更晚阶段,所以你有更长的时间当你的实验没有被篡改时。所以这些是控制在这个世界上可能很好的原因。

我认为这没有涵盖更复杂的干预措施。我确实认为在这些非常匆忙的世界中,控制看起来不如在有更多时间和更多政治意愿的世界中好。当我们考虑控制时,最初的目标是一个更像我们有大约一年延迟的世界——就像,安全基本上有一年的预算,我们可以负担得起暂停一年。我们可以在那里做一些事情。

我认为控制在这些世界中看起来好得多。或者我不知道好多少;我认为控制带给我们的风险减少量相当大,但这些世界不太可能。但这并不是说控制在其他世界中带给我们的风险减少量比对齐的东西小得多。

另一种说法是:在这些事情发展如此迅速的世界中,对齐看起来也非常困难,而且对齐事先更难处理。我对对齐最兴奋的很多东西涉及在强大的AI上进行实验,你只能相对较晚地做到这一点。所以可能在非常匆忙的情景中,对齐最终更多是图景,但事先更难处理。

这些因素让我非常喜欢控制。也有一些政治意愿更多的世界,我认为控制看起来好得多。我经常想到控制加“在人类水平暂停”的计划——这在一段持续的时间内可能不需要任何对齐。因为你有一年的初始延迟,你控制那些AI,然后你从那里引导到更长的延迟——通过建立风险证据,确保不扩散,开发更好的保障措施——然后你从那个状态可能相当缓慢地前进,至少一段时间,直到你实际上乐意移交,而不是做一个极其匆忙的绝望移交,因为那是你唯一能负担得起的。

Rob Wiblin: 我想这需要公司之间甚至国家之间一定程度的协调。

Ryan Greenblatt: 是的。当我思考这个问题时,我认为一年的领先更有可能,我已经更新了这一点。我认为这仍然可能发生。公司之间的差距可能会打开。

我认为你努力确保不扩散并可能减缓进展的故事需要政府相当程度的支持。所以可能是你必须让美国政府——或者至少一些重要的政府——基本上支持整个计划。不一定是出于同样的原因,但出于某种原因支持它。

我已经更新了这一点,所以我现在花更多时间思考相对更绝望的情况。但你知道,一个重要因素是在相对更绝望的情况下,也许我们正在将接管风险从50%降低到40%。而在控制可能有效和我们有一年延迟的世界中,我们正在将风险从30%降低到5%。

所以可能是这些世界中的总风险减少足够高,以至于它们实际上更有影响力。因为在我们的影响非常小的世界中,因为意愿如此之少,可能只是更难处理。

Rob Wiblin: 我明白了。一般来说,你希望在中度可处理的情景中工作。如果事情太严峻,那么也许不可能拯救;如果事情进展非常顺利,那么很难改进。是中间情况你最有可能获得最大的影响,对吗?

Ryan Greenblatt: 是的,当然。我认为安全社区在过去几年中犯的一个错误是过于关注过于乐观的世界。我认为实际上关注绝望、疯狂、孤注一掷的悲观世界是相当合理的,因为很多风险都存在于那里,所以从50%到5%是很多行动。

而从5%到0.5%…我的意思是,5%的风险水平是疯狂和不可接受的,我们不接受我们的油漆公司有5%的大规模死亡、接管的风险——所有这些都只是来自接管;我认为除了接管之外还有其他风险是完全不可接受的。但尽管如此,那45%必须是大部分质量。

我们只能指望当场抓住AI的恶行吗? [00:51:23]

Rob Wiblin: 我们在多大程度上只能希望有严重的早期预警信号?你谈到了抓住AI的现行,这是你和你的同事们试图使其更加突出的另一个概念。

这是一种预警,我想,在那里你发现公司内部的AI一直在破坏数据中心,它们一直在做一些非常严重的事情。这可能会让政府或公司领导层更多地支持做更多的事情。像这样的早期预警信号会让事情变得多么更有希望?

Ryan Greenblatt: 我认为这有很大帮助。我持怀疑态度的一个原因是,可能我认为这是一个确凿的证据,但更广泛的世界并不这么认为。例如,我们最近发布的对齐伪装工作,从我的角度来看,应该是对这种威胁模型非常怀疑的人的一个相当大的更新。我认为可以预见的是,对很多这些人来说,这是一个非常小或没有更新。

要清楚的是,我不认为这个证据本身应该是一个巨大的绝对更新。也许它不会让人们达到我认为的错位风险水平,因为很多是基于他们不同意的概念论点。

但我认为很多“这绝对不可能发生”的人——基本上是0%的机会——应该可能移动到2%或3%的机会。这在氛围空间或对数空间或无论什么空间中是一个巨大的差异。氛围空间,对数空间,相同的空间,无论什么。人们没有做出这种转变。

所以我完全可以想象一种情况,我们抓住了AI试图逃脱。Buck有一个帖子,如果抓住了AI试图逃脱会发生什么?人们会说“你知道,系统有时会这样做。它们做奇怪的事情。另外,这是真的吗?你是在某种奇怪的方式下训练它的吗?”或者“哦,那是在那家公司发生的。但在这家公司我们有不同的做法。”还有人只是说“当然,也许AI有逃脱的奇怪本能。但它们到底要做什么?”或者诸如“我们会使用各种检查来防止这个。”

我认为所有这些因素在一个相对清晰的情景中可能会削弱这一点。我有点预期很多我认为是巨大确凿证据的情况比这更令人困惑。

一个例子是,可能看起来AI在安全研究上拖后腿——它们表现得比它们能做的更差,或者它们没有做非常明目张胆的破坏,但有比我们预期的更多的错误,有更多误导性的论点。从我们的角度来看这是一个很大的更新。因为它看起来相当不对劲,但它是相当定量的。如果你只是期望较低,也许这不会那么令人惊讶。

Rob Wiblin: 我猜这是一个战略情况,AI可以在某种程度上预测反应会是什么。在它采取敌对行动的情况下,它可以使它们成为它怀疑不会真正触发更大反应的事情。所以对于它可以逃脱的事情,比如试图逃脱,但它不能逃脱大规模谋杀。那么它选择逃脱并暂缓谋杀。

Ryan Greenblatt: 至少暂时如此。控制的一个希望是使严重的坏事更难以合理否认。我们称之为“定罪”。从“哇,那真的很可疑”到“好的,我们已经确定了到底发生了什么”是非常重要的。只是因为在我们看来定罪并不意味着从更广泛的世界角度来看是定罪,但它确实在推动事情发展。

我认为这可以发生在所有不同的制度中,从看起来有点可疑,到了解发生了什么并且看起来非常可疑;到AI试图逃脱,我们阻止了它,我们做了假装它成功的事情,看看它在外面会做什么——并试图达到“看起来它正在试图弄清楚如何制造生物武器。它试图运行一个湿实验室。”

原则上你至少可以走得很远,理解在逃脱的情况下它会做什么。在某种程度上,它做的事情更明显地恶意,我认为这可以激励额外的行动。但我确实担心任何不会造成大规模损害和潜在人类死亡的预警信号可能不会触发强烈的反应。

缓慢的AGI崛起会是什么样子? [00:55:33]

Rob Wiblin: 我们已经深入探讨了一个相当令人眩晕和担忧的情景,我想部分原因是如此疯狂的事情与我们现在的观察如此一致,这本身就很有趣。这也是一个我们认为现在可以做很多事情的情景,或者是一个事情可能变得相当糟糕的情景,我们应该可能采取预防措施和准备,以弄清楚我们将如何降低这种风险。

只是为了平衡,如果我们能讨论一些更平凡、更无聊、也许希望不那么可怕的可信情景,那将是很好的。所以人们不会认为这是事情发展的唯一方式。因为事实上,一个关键的结论我认为只是我们对这些不同的事情如何发展有非常广泛的误差范围。

Ryan Greenblatt: 是的。我认为也许一个好的起点是我们谈了很多关于时间表的问题。时间表可能更长,对吧?所以我说的中位数或50%概率是现在起8年内实现完整的AI实验室自动化。但之后有一个长尾,所以有世界它远在那之后。可能进展要慢得多,更渐进。事情需要很长时间来整合。也许世界有更好的理解,更多的时间进行实验,这可能使情况好得多。

除此之外,可能是非常长的时间表——或者更长的时间表,我应该说,我不知道关于非常长——起飞我们也应该预期更慢。我认为短时间表,广泛地说,与快速起飞相关,因为它表明我们正在做的事情的回报更高。所以更长的时间表。

另一件事是AI研发可能极度受限于计算。所以即使在你自动化了整个AI公司和所有员工的时候,你也比有人类员工时快不了多少。在极端情况下,也许你只快了2倍。你甚至可能比那更慢。但我认为那在我的误差范围的低端。我认为那可能相当不可信,但2倍或3倍是可信的。

然后可能是你在那之后很快遇到收益递减,所以你没有真正加速那么多。那将意味着情况在起飞方面看起来好得多,因为你得到了一个不那么激进的起飞。

另一件事是AI进展的默认速度已经相当快。所以我甚至担心——没有加速,只是在默认轨迹上——如果我们达到AI有足够能力自动化整个AI公司的点,也许即使它不会带来太多加速,并且在那之后很快有一些风险,在正常的政府时间内,仅仅来自默认的进展速度。

但我认为有一些可信的论点认为未来的进展速度会放缓。特别是现在,进展依赖于投入越来越多的计算,越来越多的投资。如果情况停滞,投资减少,但我们仍然以接近相当高的产能运作,我们可以想象一个世界,AI行业最终成为一个每年可能证明数千亿美元计算支出的行业,也许甚至更多,但不会比那多得多。

在那个制度中,如果我们不投入越来越多的计算,那么我们不会从硬件扩展中获得进展,算法进展也会更慢。所以也许现在的速度是我们每年获得13倍的有效计算——其中一些是算法,一些是计算。我认为如果计算是固定的,我们可能有每年2倍或3倍的进展。在计算增长较慢的制度中,可能介于两者之间。

Rob Wiblin: 好的,所以那将是一个更慢的起飞。对齐是一个相对直接的问题的可能性有多大?或者甚至根本不是问题,我们只是被迷惑了,我们生产的所有这些AI基本上都默认想要帮助我们?

Ryan Greenblatt: 嗯,从我角度来看的一个重要问题是,不同能力水平的各种AI积极密谋反对我们的概率是多少?我认为进入非常超人的能力而没有AI非常积极地以某种强烈的意义密谋反对你是相当可信的。我目前的观点是,如果你基本上不采取任何对策;你基本上只是沿着能力的最有效路线前进,大约是25%。然后一旦我们开始考虑对策,它可能会低得多,这种风险在这个早期点也可能更低。

一个希望的故事是你有这些能够自动化整个AI公司的早期系统。这些系统没有密谋反对你。你做了额外的对齐工作,使它们也尽力——它们实际上试图追求对齐研究;它们试图预测风险——这也许默认不会发生,即使它们没有密谋反对你。可能是事情没有密谋反对你,但事情仍然偏离轨道。但如果它们没有密谋反对你并且你避免了事情偏离轨道,那么也许我们就是好的。我们移交给AI。AI管理情况,它们意识到未来的风险。它们用相同的属性构建另一个系统,那可以自我维持。

另一个情景是可能一个更强大的事情默认是真的。可能是你训练AI,用一个相对naive的——你商业上默认会做的——训练策略,它们真的只是,开箱即用,非常努力地帮助你。它们真的很好。也许甚至它们只是在某种非常广泛的意义上对齐。不仅仅是它们是短视的;它们真的试图为世界追求好的结果。我认为这是可能的,但比前一个情景更不可能。

另一件事是有一个问题,它是默认发生的吗?它也可能只是因为我们投入了大量工作而发生,我们可能处于一个更好的位置。很难对在未来八年内会发生多少对齐或安全工作有太多信心。如果我们有八年时间,社区可以建立。AI会随着时间的推移变得更有能力。更多的人会从事这方面的工作。似乎可能有诸如大的洞察力,但即使抛开大的洞察力,也许只是诸如我们真的推进了我们的技术,我们已经调整了科学。

所以有一些时间线,我会说,可能是技术希望。然后有更广泛的社会希望类别。有一些故事中社会在未来更认真地对待这种情况——也许是一部分国家,也许是更广泛的科学界。可能是因为一个预警信号。也可能只是因为慢慢地人们接触到AI,时间线可能更长,更多的人与它互动。

似乎也可能发生一些与错位风险不太相关的大事件,但实际上有很高的转移。所以也许有很多失业会促使大规模反应,其中一些反应进入减轻错位风险——要么非常直接,就像人们说“AI在这个方面是一个大问题,所以也许在那个方面是一个大问题”——但也可能更间接:它导致AI进展缓慢或更谨慎,因为有更多的监管。

Rob Wiblin: 还有其他有希望的类别,还是那基本上涵盖了?

Ryan Greenblatt: 所以在时间线和起飞上容易的事情,在技术上容易的事情,还有社会上的。第四个类别是我们迎难而上。也许即使社会没有迎难而上,也许只是一系列英勇的努力——或者希望不那么英勇——

Rob Wiblin: 如果一个公司,真正领先的公司,结果实际上非常负责任,在这方面投入大量努力并且成功。

Ryan Greenblatt: 是的。我认为很多风险来自这样的世界,如果你只有一年的延迟,你非常认真地对待情况,你深思熟虑地考虑各种考虑因素,你本可以拯救世界。或者至少风险要低得多。也许它没有被最小化或消除。当然我不会说这会导致从我的角度来看广泛可接受的风险水平。但我不知道。它可能发生。

Rob Wiblin: 酷。你确实在那里让我振奋了一点,提醒我事情可能有其他发展方式。

为何智力爆炸可能8年内不会发生? [01:03:32]

Rob Wiblin: 有什么证据表明这可能需要比四年甚至八年长得多的时间?

Ryan Greenblatt: 首先,我应该重申,我不认为我们会在四年内看到完全自动化或完全自动化AI公司的能力。所以我必须认为有一些证据表明这不会发生。

我认为人们应该开始的第一件事是对特定时间框架内发生疯狂事情的怀疑。所以我认为有一些证据表明我们可能预期它很快——你知道,我们有快速的AI进展,我认为这已经击中了很多事情——但如果你只是像,迄今为止我们有多少进展?这个领域已经进行了多久?你从一个非常外部视角的优先角度出发,你在想,技术的基准率是什么,那么你不期望在未来四年内——因为这是一个疯狂的技术。

我甚至认为基准率可能比人们倾向于认为的更乐观。我认为通常当人们做这种外部视角的基准率事情时,他们最终会得到200年的时间线或类似的东西。但实际上,Tom Davidson有一份报告,如果你只是最naive地应用外部视角,你实际上在本世纪内有相当高的概率。

Rob Wiblin: 这是因为在该领域的投资增长非常快吗?我们只是增加了投入计算的量级,所以如果难度分布在log空间,那么我们实际上——

Ryan Greenblatt: 资源和计算和劳动力。是的,我们已经跨越了很多。所以这是一个观点。

你也可以只是说,即使你只看时间,我们做严肃的AI研究的时间并不长。你可以用我们做深度学习多久了?有人做AI多久了?如果你把这些混在一起,感觉强大的AI很快在某种意义上并不是那么不可能。

但我仍然认为,先验上有多不可能表明要长得多,我认为这让我倾向于更长。

一般来说,另一个让我倾向于更长的观点只是,AI相当聪明,但它们没有那么聪明。我认为我们只是不能有那么多信心下一部分进展是可以做到的。

然后有一些更具体的对象层面的论点。

抱歉有点转移问题,但我总是忍不住要提出一些你提出的短时间线的论点。所以关于短时间线的另一个我认为相当重要的观点是,我们正在经历很多以前没有经历过的计算和劳动力的数量级。现在非常快。

除此之外,我们正在经历的数量级在某种程度上高于我们对人类大脑计算的最佳猜测。所以我们这些不太好的估计表明,人类大脑使用的计算可能是10^24作为人类大脑计算寿命的中央估计。目前的训练运行大约是…我认为刚刚训练的Grok 3,我看到估计大约是3 x 10^26——所以比人类寿命高出两个半数量级。

然后我们可能会认为,你首先达到能够基本上击败人类的AI,高于人类寿命计算——因为我们通常开发的算法首先比生物学效率低,然后它们可能相当快地变得比生物学更高效。

这在文献中,在Ajeya旧的生物锚定报告中,熟悉的人称之为“寿命锚”。我在寿命锚上放了相当大的权重。它看起来相当不错,因为我们在达到人类计算时达到了这些大约人类水平的能力。所以感觉这个模型有很多支持,那表明我们可能在几个数量级的更多计算中达到它。

我们只是非常快地燃烧这些数量级的计算。作为背景,我认为训练运行计算每年增加约4倍。所以你每年相当快地经历很多数量级。大约是每年略多于一个数量级的速度。

而且,我只是总体上认为我们应该在AI发展的计算中心观点上放一些权重——在AI发展的计算中心观点上,即使比寿命锚更不具体,我们从相当有竞争力的起点开始燃烧很多数量级。也许我们走得很远。

现在相对于这一点,悲观的情况是我们只能在数量级上走这么远,对吧?我们离你能生产的芯片总数不远了。我可能搞错了统计数据,但一个相当大比例的台积电或半导体制造能力正用于机器学习芯片。我的缓存数字是10%到20%。我希望我不会大错特错,但我认为肯定高于1%。远高于1%。

所以关于这一点有趣的是,英伟达的收入大约每年翻一番,我认为AI的晶圆数量或无论什么——我希望我不会在这里粗暴对待;我不是半导体专家——我认为AI的半导体每年增加略高于2倍。简单起见,让我们做一个略乐观的估计,比如每年3倍。值得注意的是,如果你从20%开始,每年增加3倍,你没有多长时间就会达到限制。

Rob Wiblin: 你把所有的芯片都用于这个。

Ryan Greenblatt: 是的,你使用了所有的芯片,一旦基本上像所有的晶圆厂都在生产AI,你只能走这么快。

Rob Wiblin: 我想那时你受限于它们能多快建造新的晶圆厂,基本上。

Ryan Greenblatt: 是的,受限于它们能多快建造新的晶圆厂。

还有其他进展来源,要清楚。所以即使我们受限于建造新的晶圆厂,仍然有可能从硬件随着时间的推移改进中获得进展,也有从算法发展中获得进展的来源。尽管我认为一个关键的事情,也许人们没有足够跟踪的是算法发展也是由投入更多计算驱动的。所以我们应该预期算法发展会放缓。

所以我认为悲观的情况是:AI继续发展。我们已经达到了 insane 的投资水平。当你开始达到台积电的限制时,投资必须更高以证明建造新的晶圆厂是合理的。

或者可能在达到大部分台积电生产之前,人们只是没有看到足够的结果来证明这些投资水平。我认为微软、谷歌,它们可以证明像…我认为微软今年计划约1000亿美元的资本支出。Stargate有约1000亿美元的承诺,也许那是一两年内的,然后也许它们希望得到更多的钱。Stargate是OpenAI的一个项目。

但我认为一旦你超出这个1000亿美元的制度,不再只是有一个超级相信的大科技公司,对吧?谷歌没有能力轻易花费一万亿美元,尤其不是一年内的一万亿美元。我的意思是,我认为筹集一万亿美元并非不可能,但我认为你可能需要非常令人印象深刻的结果,你需要开始吸引更多怀疑的投资者,更多收入。你需要谈论潜在的主权财富基金。当然有可能——

Rob Wiblin: 美国政府可以提供那种钱。

Ryan Greenblatt: 是的,这是真的。当然有可能。

Rob Wiblin: 尽管我猜如果你试图一年内在这个东西上花费一万亿美元,你开始遇到其他瓶颈。

Ryan Greenblatt: 当然。是的,是的。我目前不知道这里的弹性是什么。我认为Epoch做了一些估计,比如到2030年你能做的最大的训练运行是什么?我认为它们的中位数,在人们继续积极投资的 timeline 中,可能是你可以达到10^30 FLOP的训练运行——这考虑了数据瓶颈,芯片之间带宽的各种考虑,芯片、芯片生产可以扩展多少,台积电正在建设多少产能,这类事情。

我的猜测是,独立于AI加速,这可能是一个相当合理的猜测。AI加速可能使这更快。但如果我们在一个看涨的时间线中,但不是一个AI已经开始加速的看涨时间线,我猜这是一个相当好的估计。但有可能我们偏离了,因为也许瓶颈比它们预期的更难,也许投资干涸得更快。希望它们不会因为这个批评我,但我认为它们没有考虑到这个支付意愿。

但在2030点之后,我认为事情开始变得困难得多。我认为如果我们达到10^30 FLOP——你知道,裸金属FLOP,GPU实际运行的计算——从我们现在的位置,略高于10^26,那么我们在未来五年内达到四个数量级。所以相当快。

我认为这足以让我们原则上看到我们已有的趋势继续,比如我们已有的趋势。我认为我们有一点GPU停滞。我认为我们将有GPU开始建立。我认为在GPT-4之后有一点停滞,因为人们试图购买所有的H100。我认为我们会看到更多H100的模型,比如GPT-4.5,然后我们会看到另一轮Stargate,这是另一个大的建设。SemiAnalysis推测Anthropic从亚马逊那里有大量芯片,可能相当于大约100,000或200,000个H100,所以我们会看到另一轮100,000到200,000个H100集群。然后我们可能会看到,我要把日期搞错了,但可能在2028年左右,我们会看到更多百万GPU的范围。

但如果我们那时还没有达到非常强大的AI,我认为你应该预期事情会放缓。有更长的尾巴,我们在2030年、2032年左右吃掉大量计算,然后进展必须逐渐减少——除非我们达到非常强大的能力,或者我们都错了关于你能多快建造晶圆厂或你能筹集多少投资。

但我认为很多悲观的情况是也许你做了很多扩展,但你达到了这些限制。不是全部。

Rob Wiblin: 所以对于没有完全跟上的人来说,简短版本是,我们目前正在迅速增加用于训练AI的计算量。我们将无法保持这种速度,因为我们目前是通过将原本用于其他目的的芯片拿来用于机器学习。

而且,这些公司从将1%的资源用于AI开发到10%——然后也许它们可以达到100%,但它们不能仅仅通过将原本用于其他事情的资源拿来超越这一点。

所以当几乎所有芯片都用于AI训练,几乎所有这些公司的资源都用于此时,它会使你在那里可以获得的增长率趋于平稳。

Ryan Greenblatt: 当然。关于这一点可能有几点小的说明。一件事是,当你考虑重新利用芯片时,这不是像它们把iPhone芯片重新利用。而是有相对通用的芯片制造能力,现在我们不是制造那么多iPhone,而是制造更多AI芯片。其中一些来自建造额外的晶圆厂,但一些来自稍微提高其他芯片的价格,或减少你得到的数量。

当AI处于20%或30%的制度时,它不会对多少其他芯片的成本产生非常明显的市场影响,因为台积电可以稍微更快地扩展以跟上。但一旦AI芯片达到80%或100%,那么我们将开始看到更大的影响和从那以后的事情放缓。

AI进展预测的关键挑战 [01:15:07]

Rob Wiblin: 另一个使预测这一切有点困难的是,我们不只是年复一年地做完全相同的事情;我们不是年复一年地遵循相同的趋势。

最初,例如,我们通过将更多计算投入预训练获得了大量改进。这是你从互联网上转储所有文本并试图让它预测下一个词的事情。我们通过投入更多数据和更多计算从中获得了巨大收益。但那逐渐减弱,我们必须转向更好的引导,使用训练后的人类反馈强化学习。然后我们做不同的事情,最初非常有效,但随后开始趋于平稳。

我想现在我们正在使用强化学习做一种自我游戏,模型学习更好地推理,基本上我们只是在它们得到正确答案时强化它们。我们在这上面有一个非常陡峭的曲线,但大概在某个点上那将趋于平稳,我们必须做不同的事情。

如果我理解正确的话,这使得它更加困难,因为我们不知道明年会有什么创新来推动改进。

Ryan Greenblatt: 是的。从GPT-1到GPT-2到GPT-3到GPT-4的改进——然后也许在那里,2023年有一点停滞,然后在2024年回升——我认为很多改进,直到2024年中左右,是由扩大预训练驱动的,比如投入更多数据。

有一种说法是预训练已经碰壁了。我不太清楚这是怎么回事。可能是它的回报相对递减,或者进一步扩展的边际回报比过去在定性能力上要低。

基于一些感觉,我们有Grok 3——比GPT-4多大约10倍的计算和更好的算法——它有多好?它稍微好一些,但也值得注意的是,在之前的改进中——比如GPT-3到GPT-4的差距——那是更多的计算。我认为那个差距大约是裸金属计算的100倍。结果证明当时在快速扩大你花费的FLOP方面有很多低垂的果实。

现在我们遇到了瓶颈。在GPT-4之后,它们在某种程度上等待H100。H100交付缓慢。我们有点晚才让H100集群上线,也许最初在让它工作上有一些困难。所以GPT-4.5,有点令人失望。我认为有传言说OpenAI有多个,或至少一个失败的训练运行。

Rob Wiblin: 哦,哇。

Ryan Greenblatt: 所以如果我们看到人们适应更多计算,弄清楚如何使用它,预训练的回报从那里上升,这并不奇怪。

那是预训练,也许即使预训练在递减,你可以扩大RL,强化学习。我们在2024年看到了这一点。我们有o1,它们在RL上训练。它们在容易验证的任务上训练,不是在下一个词预测上训练。我们已经从中看到了很多初始回报,我们不知道那会在哪里减弱。

你知道,我们在RL训练上没有看到那么多数量级。例如,推测DeepSeek-R1在RL上花费了大约100万美元的计算。所以原则上我们可以将其扩大到三个数量级更高,与人们将拥有的集群相当。也许略低于那,但大致如此。

一旦我们谈论三个数量级更高,可能是那会产生巨大的回报,或者可能不会。

产生巨大回报的故事是它从第一个百万中产生了巨大回报。也许你只是走得更远,建立更多的环境,做更多的RL大回报。不会的故事是也许模型有一些潜在的容量或潜力,RL正在释放。我们已经释放了大部分潜力,我们遇到了收益递减。

Rob Wiblin: 所以为了回来说,对于没有非常密切跟踪的人来说,值得记住的一件事是我想我们过去经常使用强化学习,然后它有点落伍,现在又回到了前沿。

这是你拿现有的模型,GPT-4o或类似的东西,你给它非常具有挑战性的推理问题,你也许让它尝试100种不同的解决方案,1000种不同的解决方案。基本上你只是找到它最终得到正确答案的情况,然后你说“做得好。像那样推理以尝试以你刚才做的同样方式解决其他问题。”这被证明是极其强大的。

我想你说的是这可能在捡一些低垂的果实,这些模型在权重中有更多的能力来做聪明的推理,比最初明显的要多,比我们能够从它们那里得到的要多。通过使用这个过程让它尝试各种不同的解决方案,然后找到运作良好的推理过程,我们正在提取大量只是坐在那里等待被捡起的东西。但那可能会有些耗尽,在这一点上,对它们来说基本上学习新的优越推理技术将是一个更重的提升。

Ryan Greenblatt: 是的,没错。人们试图让模型进行链式思考推理。所以在GPT-4的时候,人们完全意识到你可以做链式思考推理,并在这方面折腾。但我认为它只工作得这么好。模型在从错误中恢复方面不是那么好。它不是很擅长仔细推理事情。

我认为我们现在看到的是,借助o1、o3和其他推理模型,可以让模型相当出色地进行推理。其中很大一部分可能已经通过思维链(chain of thought)实现了——模型已经在某种程度上做到了这一点,或许你只是让它变得更好一些,但问题在于能好多少。

Rob Wiblin: 你提到的另一个低垂果实是,有时候我们给这些模型非常困难的挑战,却只给它们价值1美元的计算资源。而人们发现,如果你实际给它们更像人类会获得的资源——比如价值100或1000美元的设备和薪资——那么它们在更公平的比较中会表现得更好。

但你不能再次这样扩展了。你可以从1美元到1000美元,但如果从1000美元到10万美元,那就是真金白银了。问题是,给一个模型这么多资源只是为了解决一个数学问题,这在经济上是否真的有用?

Ryan Greenblatt: 是的。还有一点值得注意的是,即使这在经济上是可行的,我们很快就会遇到计算资源总量的限制。

假设你让模型完成一个价值10万美元的任务。我做了一个粗略的估算(BOTEC),我的感觉是,至少在几个月前,OpenAI拥有的总计算资源大约是每小时50万美元。所以,如果是一个10万美元的任务,那么你会占用OpenAI全部计算资源的五分之一,持续一小时。所以你能做的这种任务是有限的,对吧?即使有些任务在经济上非常有价值,你也会遇到瓶颈。

Rob Wiblin: 因为这会推高价格。

Ryan Greenblatt: 是的,这是供需关系。即使某些任务非常有价值,你能做的扩展也是有限的。而且,人们已经展示了不仅达到人类成本,甚至远高于人类成本,还能获得额外回报的例子。

这其实挺好的,因为它让我们得以窥见未来。我认为,如果你看到模型能以高成本、慢速完成某项任务,我们很快就能以低成本、快速完成同样的任务,因为成本正在迅速下降。

Rob Wiblin: 我们可以画出这条曲线。

Ryan Greenblatt: 是的,我们可以画出这条曲线。所以我对那些对AI能力持怀疑态度的人抱有希望,也许我们首先可以用极高的运行时计算资源和大量领域特定的引导来展示某些能力,然后很快就不再需要这些了。希望在那之前,我们能在能力广泛使用之前达成某种共识。

AGI的悲观情景 [01:23:01]

Rob Wiblin: 我们刚才一直在讨论悲观情景,或者说认为这需要很长时间的情况。

Ryan Greenblatt: 我真是个糟糕的悲观者。

Rob Wiblin: 好吧,我来试着提出一个我听到的悲观论点。AI可能在相当狭窄的任务上变得非常出色,比如成为非常优秀的程序员,或者在创意生成、假设生成、设定等方面做得很好。但运营和扩展一家AI公司需要的不仅仅是这些,它们会有一些严重的短板和弱点,这会成为限制因素并减缓进展。你觉得这种观点有多合理?

Ryan Greenblatt: 这里有一些背景:历史上,正如我们所说,很多回报是由预训练驱动的。然后从2023年底到2024年,强化学习(RL)开始发挥作用——GPT-4 Turbo的很多改进可能是由RL驱动的,或者随着时间的推移而改进。这是推测,但GPT-4o是一个更好的基础模型,同时也得益于更好的RL,然后是o1,更好的RL。这在编程任务、编码任务、数学任务等更容易验证的任务上推动了基准分数的提升。

现在,我们看到了一些迁移。解决这个问题的一种方法是,也许你可以让AI在编程上变得非常超人类,在软件工程上也非常超人类——虽然验证起来更难,但至少部分是可以验证的——在数学上也非常超人类。然后这会在一定程度上迁移。

所以,可能的情况是,标注其他东西的成本非常高。我们可以评估人类在其他领域的表现;只是无法自动完成。比如你可以评估一篇论文的质量,我们有这样的流程,它有一定的信号;只是成本更高。所以原则上,如果AI几乎可以迁移到写出好论文,只需要一点点反馈——它们的样本效率很高——那么这可能会走得很远。

另一个值得注意的是,我认为有一种“不需要泛化”的故事。或者说几乎不需要泛化。所以可能的情况是,你几乎可以让它工作,或者基本上工作,仅仅通过在成为真正优秀的研究工程师的过程中直接进行RL。我们可能能够达到这样一个点,即通过扩展RL、拼凑起来,几乎完全自动化AI公司的研究工程,而不需要太多迁移。抱歉,我们需要领域内的泛化——我们需要AI在领域内相对快速和高效地改进——但即使AI没有很好的研究品味,或者在这些方面不是很出色,这也能走得很远。

此外,即使只是领域内、不需要太多迁移,你可能也能在运营AI公司的其他方面做得非常好。所以我们有这些研究工程师AI,一方面:也许这会让进展更快,然后我们启动更多进展,最终得到一堆其他东西。我稍后可以详细讲这个故事。

但另一方面,如果我们有这些研究工程师AI,但它们没有研究品味,也没有其他更难训练的东西……

嗯,我们所说的研究品味的一部分是理解实验的结果可能是什么,有好的预测,能够基于较少的证据理解发生了什么。对于这一点,你也许可以训练AI成为ML研究实验的超强预测者。

如果你训练这些AI成为超人类的ML项目预测者,它们基于生成大量小规模ML项目来预测结果,并对更大规模的ML项目有一定的迁移——这不太容易直接获得数据——那么从那里你可能会得到这些AI,它们能像Ilya Sutskever或Alec Radford那样预测实验结果。也许它们不那么依赖洞察力,而更多是机械地生成一长串想法,预测它们的效果如何,然后从这里继续。

我认为基本上有很多这样的路径。另一条路径是也许你可以在领域内做到这一点,这在自动化AI公司方面可以走得很远。

这里的一个重要星号是,我认为怀疑论者可能会对我尖叫:“但除了自动化AI公司之外的其他事情呢?!”我想他们可能会说,好吧,AI研发,我想这是可以验证的。但人类做的所有其他反馈循环更慢的事情呢,比如成为一个优秀的战略CEO?

Rob Wiblin: 融资?

Ryan Greenblatt: 融资,所有这些其他事情。所以我想把这个问题暂时搁置,但也许我们稍后会回到这一点。

然后我想说的第二点是,有领域内的故事,也有更泛化的故事——你在所有这些狭窄任务上训练AI,它们变得更聪明;只需要一点点数据,它们就能迁移到这些领域外或我们没有大量数据的事情上。我认为这可能是介于两者之间的某种插值,因为很难获得大量关于长周期软件工程任务的数据,所以你可能需要一点迁移,但你可以做很多数据。

然后我认为还有第三个故事,就是人们只是弄清楚如何通过其他机制在更难验证的任务上进行RL,使用更像基于过程的检查,或者能够通过自我批判、构建更详细的检查来进行RL。

有趣的是,人类能够通过某种自我批判的概念在许多有点模糊的任务上学习——我做得怎么样?我应该多做还是少做这样的事情?我认为AI目前可以做到这一点,但不是很出色。我可以想象随着时间的推移这会变得更好。

我认为我们一次又一次看到的是,如果某个东西是能力的限制,那么更广泛的ML社区中有巨大的马力,但我想在AI公司中,人们会集中精力推动这个限制,无论它是什么。

转向“推理时计算” [01:28:46]

Rob Wiblin: 过去一年有一个转变,从几乎所有或很大一部分计算资源用于训练运行,转向更大一部分用于推理或运行时计算——所以不是用你的计算资源让模型在预测下一个词或训练期间更有可能获得正向强化方面变得更好,你实际上是给它大量的时间来思考你给它的具体任务。

这如何改变我们在自动化大量AI研发时的情况?很多人认为,在推理计算为中心的模式下,这会稍微减慢速度,因为你会受到很大限制:如果事实证明运行一个AI研究员的等价物需要大量的计算资源,那么至少一开始你只能拥有100或1000个等价物,然后逐渐增加。

Ryan Greenblatt: 一方面,如果推理计算没有纳入你之前的模型,那么它应该会让你对相关里程碑的时间线更短。但也许我们第一次达到某个里程碑时,成本会非常高。所以也许我们首先能做到的是,我们有一个AI,可以以每年大约1000万或2000万美元的计算成本自动化我们公司的一个研究工程师的工作。

正如我之前提到的,计算资源的供应实际上是有限的。所以即使原则上你愿意自动化所有员工——也许你愿意以每年1000万美元的成本自动化1000名员工:那就是每年1000亿美元,这已经接近公司在这种情况下的计算资源总量了,对吧?所以我们可以看看人们总共投入了多少资本支出?这大致在同一数量级。

如果比这更极端——也许更像是每年1亿美元——那么突然间,他们可能根本没有钱做这个,也可能没有计算资源做这个。而且,这可能在经济上也不可行。

也可能是,使用这种推理计算太慢了。也许如果你能让它更快,它就能工作,但很多扩展推理计算的方法可能会让它串行更慢,这会减少AI的很多竞争优势。

Rob Wiblin: 你这是什么意思?只是因为它必须一个接一个地做很多事情,实际上输出一个答案需要很长时间?

Ryan Greenblatt: 是的,比如o1回答问题的速度通常比人类慢,因为它花了很多时间思考。而之前的AI几乎总是比人类快,现在o1有时更慢,或者更常见的是在同一水平。我们可能会看到涉及更多串行步骤的推理时间扩展具有这种特性。我认为有各种方法可以缓解这个问题,所以我不认为这是一个巨大的障碍。至少在优化之后,我猜不是,但一开始可能是个障碍。

所以总的来说,我认为推理时间计算应该让我们预期在能力变得经济之前就能看到能力,并且在小规模之前就能看到能力。

而我认为在纯粹的预训练范式之前,一个令人惊讶的事情是,你天真地预期在能力首次可用时,你可以以该能力水平运行真正庞大的数量。我的感觉是,这在广义上仍然是正确的,基本上是因为我认为高推理计算的蒸馏相对较快,而且推理计算我认为只能让你走这么远。

所以我认为它可以带来巨大的收益。但我认为你必须量化这些收益有多大。所以如果这可以相对较快地被蒸馏掉,我认为我们已经看到了——比如从o1到o3 mini,我们看到蒸馏进展相当快——在扩展训练的同时,也能更有效地将其蒸馏成一个更小的包。

Rob Wiblin: 所以蒸馏是让模型变得更小,同时性能几乎一样好。所以你可以并行运行更多,或者它可以更快地给你更多答案。

Ryan Greenblatt: 是的,我应该说蒸馏是一个更广泛事物的特例,有时候至少在最初,让某物变得更便宜比让它变得更好更容易。所以假设我们有一些新的能力正在展示,我们推动了前沿,然后我们可以相当快地将该前沿点的成本降下来。蒸馏是你用一个大模型的输出来训练一个小模型。

Rob Wiblin: 在推理计算范式中,这两件事不是有点趋同吗?因为你说,如果你能让它小十分之一,而它的思考能力几乎和以前一样好,那么你可以让它思考的时间实际上是以前的10倍?

Ryan Greenblatt: 是的,但当然推理计算的回报可能会很快递减。这可能不是最相关的基准,但例如在ARC-AGI中,我们看到他们从每个任务大约3美元或10美元到超过1000美元。所以成本的增加大约是两到三个数量级。在这两到三个数量级的成本中,他们将性能从大约76%或75%提高到85%。而对于人类来说,我认为从75%到85%的进步并不大。

类似地,我们看到像如果你对模型采样64次,你从中选择最常见的答案,你从中看到的改进相对较小。所以总的来说,我认为问题是这些推理时间策略的效率如何?我认为这取决于策略,但你可能会遇到收益递减。

预训练的效果减弱了多少? [01:34:22]

Rob Wiblin: 这里的总体主题是关于预期AI研发自动化更早或更晚的论点。还有没有其他关键因素我没有给你机会谈到,会影响这个问题的一个或另一个方向?

Ryan Greenblatt: 我认为一个重要的问题是,有些人转向认为预训练可能遇到了瓶颈。所以我想深入探讨为什么这可能是真的——在多大程度上这是真的——以及这有多真实。

所以我认为一个重要的原因是,可能是数据质量和数据量存在问题。你知道,DeepSeek最近用很少的钱训练了DeepSeek-V3,他们在大约15万亿个token上进行了训练。所以可能的情况是,你可以在大量数据上进行训练,但可能在数据质量方面收益递减非常陡峭。

关于这一点有多少公开证据并不多。但如果这是真的,那么可能的情况是,一旦你在前15万亿个token上进行了训练,接下来的15万亿个token的价值就会低很多。

如果你想象将DeepSeek-V3的训练运行规模扩大10倍,那么基于Chinchilla缩放法则(这只是你应该如何并行扩展模型大小和数据量的多少),你会将数据量扩大3倍,模型大小扩大3倍。如果你这样做,你会达到45万亿个token。所以可能的情况是,如果你在45万亿个token上训练,接下来的30万亿个token会差很多——要么是因为在相同的token上重复训练,要么是因为token的质量更低。所以可能的情况是,你可以拉伸得很远,但由于数据过滤,收益从现在开始递减。

这可能是为什么预训练扩展在过去看起来比现在更有前景的一个原因,因为过去的过滤更差。也许从GPT-3到GPT-4的很多改进是因为他们在更多的token上训练,他们得到了更多好的token。但现在我们处于一个可以真正提取出好的token并确保在它们上训练的状态,这可能会导致收益递减。

所以我认为这是为什么我们可能预期预训练会更慢的一个原因,但我不认为这是预训练回报会完全消失的论点。你可以只是在更差的token上训练,训练更多的epoch,找到方法从相同的token中榨取更多的汁液并获得这些。但你会看到进展的速度更慢。

除此之外,还有一种选择是不做预训练,而是做更多的RL。我们之前讨论过一点,也许RL有收益递减。但即使收益递减,可能仍然足够高,比预训练更高,你可以投入指数级更多的计算,得到线性更多的性能——但定性地,线性更多的性能是一个很大的进步。

除此之外,我认为我们对所有这些有多真实非常不确定。而且即使回报比人们之前认为的要弱,可能仍然有很多扩展空间。

Rob Wiblin: 好的,试着把其中一些内容反馈给你:预训练是我们获取大量信息、文本语料库,试图预测下一个token。看起来在过去,扩展输入这一过程的数据量非常有价值。但有可能这在某种程度上正在趋于平稳。

你说这其中的部分原因是,他们在某种程度上实际上已经耗尽了可以收集的新数据。他们几乎已经抓取了人类实际编写的所有优质文本。但同样,随着时间的推移,他们变得更善于过滤出实际上高质量的token,他们希望模型大量训练的高质量内容,以及那些他们可能可以丢弃的东西。所以他们可能保留了出版的书籍、教科书之类的东西,并在其上额外加权。然后从互联网上抓取的没有任何特定信息的随机垃圾,他们设法排除了这些。

我想你说的是,过滤掉好东西后,他们唯一能添加的东西质量真的很低,所以他们实际上从中没有得到多少汁液。这可能有助于解释为什么数据扩展现在没有像以前那样增加那么多价值。

但你说他们可以把投入到这方面的努力用来改进强化学习过程——这是另一种尝试改进模型的方法:奖励它成功回答问题,奖励它在过程中有好的思考。我理解得对吗?

Ryan Greenblatt: 是的,没错。我认为人们有时也会谈论合成数据。我喜欢把合成数据看作是RL的一种粗糙版本。你做的就是用另一个模型生成一些数据,然后让这些数据比它默认生成的数据有所改进。所以也许你只选择它做对的情况;也许你让它修改它的答案,或者你让它尝试解决数学问题,然后你给它看正确答案,然后你让它修正它的思维链。你把这些扔进预训练语料库,也许这些数据有些价值。

这在某种意义上类似于RL,因为你找到好的模型轨迹并在其上训练,但它可能有稍微不同的属性。你可以扩展这个,生成大量合成数据,我认为这会带来一些回报;我认为这会带来一些改进,你可以进一步扩展。

所以让我试着提出极端的悲观情景。极端的悲观情景是:DeepSeek-V3最近发布,训练成本为500万美元。与此同时,我们看到Grok 3也发布了,或者DeepSeek-V3在更早一些。成本的差异大约是两到三个数量级,大约100倍。我认为DeepSeek-V3是在大约2000个GPU上训练的。Grok 3是在大约10万个GPU上训练的,非常粗略地说。所以可能接近50倍左右,大概在这个范围内。所以我们在预训练计算上有这个50倍的因子。

然后如果你看DeepSeek-V3,至少在定性上,它并不比Grok 3差很多。那么这是怎么回事?是什么解释了这些回报?

有数据扩展的故事,也就是,也许他们已经在最优质的15万亿个token上进行了训练,而xAI能够凑集的东西没有那么好。所以他们扩展了模型,扩展了数据,也许他们从中没有得到惊人的回报。

另一个故事是回报很弱,从我们拥有的证据来看这是可能的。然后问题就归结为,你能转向更像RL的东西吗?

然后我认为另一个重要的故事——也是我模型中的一大部分——就是我认为DeepSeek相对于xAI有实质性的算法优势,至少现在是这样。我认为DeepSeek-V3可能只是一个更优化的训练运行,他们更有效地使用了FLOP——既因为更好的硬件利用率和在更低精度上训练,这是一种技术,不是用更大的表示存储数字,而是用更小的表示。它更高效一些。你只是用更低的精度做,但你可以得到类似的性能。

除此之外,我认为实际上有一个更好的调优流水线和更好的架构。也就是说,DeepSeek能够拥有更好架构的一个重要原因是他们进行了小规模的训练运行,这意味着他们可以在该规模上运行更多实验,真正解决所有问题。所以也许你可以解决问题,但每次你第一次扩展到更大的规模时,你会遇到一些问题。有一些关于这在OpenAI发生的传言;xAI可能也遇到了类似的事情。所以我认为我们看到了一些这样的情况。

所以也许我的观点是,Grok 3相对于DeepSeek的实际有效计算量大约是10倍,如果我必须猜测的话。也许比这多一点。是的,我认为大约是10倍,因为它可能是50倍的实验,但然后有一堆效率提升缩小了这个差距。可能我在这里有点偏离,也许有人会指出这一点,但这是我的猜测。

然后我想,这个10倍的扩展是否符合你定性的预期?你知道,它实际上确实好很多,所以我不认为如果这是10倍的扩展看起来像这样,另一个100倍可能会相当重要是完全不可信的。所以这里有点更多的乐观情景。

我认为AI进展中发生的另一件重要的事情是很多人说:“Grok 3比GPT-4好不了多少。那是两年前的事了,进展非常缓慢。我们在做什么?”但我认为重要的一点是,人们正在将其与最近发布的GPT-4模型进行比较,而不是最初的GPT-4版本。所以我认为OpenAI在这里的命名约定让人们像温水煮青蛙一样低估了进展的速度。

所以我们在2023年初,接近2023年初,有了最初的GPT-4发布。那个模型相当不错。然后我们看到OpenAI逐步发布了他们仍然称为GPT-4的模型。所以他们称模型为GPT-4 Turbo,然后是GPT-4o,这些模型都比GPT-4更好——无论是在预训练模型的质量上,还是在RL上,或者只是稍微好一点。所以我们有非常渐进的进展,同时仍然称它为GPT-4,所以人们可能错过了从GPT-4到GPT-4o最佳版本的大约一个多数量级的进展,他们做这种比较时错过了中间的大量进展。

Rob Wiblin: 是的,也许很容易忘记最初的GPT-4有多烦人。我的意思是,考虑到我们当时的期望,它令人难以置信——我当时被震撼了——但它非常挑剔,不太擅长回答问题。它犯的错误比现在明显得多。但我想它被称为相同的产品,所以现在你只觉得它一直是GPT-4,你忘记了人们对如何精确提示它有多么挑剔,你必须要有专业的提示工程师。随着他们变得更善于更合理地遵循指令,这已经逐渐消失了。

Ryan Greenblatt: 是的。一个具体的例子是,最初的GPT-4可能只能非常差地完成代理任务。也许它能完成五到十分钟的代理任务,比如代理软件工程任务,大约一半的时间。而现在GPT-4,更像是能完成一小时的任务。所以在这个下游能力上有非常大的差异。

所以这是一些细节。我认为如果有人能做一些非常详细的分析,试图绘制出所有定性改进以及投入了多少有效计算,那会非常好。也许Epoch应该做这个,或者其他人应该做这个。

Rob Wiblin: 回过头来更清楚地讨论Grok与DeepSeek的比较。你说人们看DeepSeek,他们将其与Grok 3比较,说Grok稍微好一点,但不是好很多。看起来它是在50倍的计算上训练的,所以我们在扩展计算输入上得到的回报很小。

但你说这有点不公平,因为我想DeepSeek由于中国在计算访问上的限制,一直在努力研究算法效率,以从他们可用的计算中获得绝对最大的收益。而Grok处于相反的情况,他们试图非常快速地扩展和训练和增长,他们拥有大量的计算资源。所以他们几乎完全不担心计算的有效利用。

你说如果你做一个更类似的比较,在训练的算法效率方面,那么你会说Grok 3是在大约只有10倍的有效计算上训练的,所以规模扩展并不那么大。所以改进看起来是渐进的,实际上更接近我们预期的样子,这实际上并不是计算扩展无用的迹象。

Ryan Greenblatt: 我的意思是,我不知道。这绝对是一些证据。我们应该对不,它实际上是50倍的有效计算,这就是你得到的这一点给予一定的权重。我认为这比我预测的要低。所以这是一个更新。但我认为广义上说,是的。

值得注意的是,这不仅仅是我认为DeepSeek更注重效率。例如,我认为Grok的算法效率可能比OpenAI和DeepSeek差。我的感觉是他们在算法效率上稍微落后,但在扩展到非常大的训练运行上稍微领先,所以他们处于一个有点不同的位置。而我的感觉是DeepSeek在小规模上可能与OpenAI在算法效率上相当有竞争力。

然后另一个可能是重要因素的事情是,我们并不真正知道,DeepSeek可以多次练习他们的训练运行,因为他们可以多次进行小规模的训练运行。所以不仅仅是他们在优化效率;如果你能多次运行训练运行,你可能有更多的信号——而如果你第一次扩展到一个新的数量级,也许你只是搞砸了一些事情。

我们能在一年内实现智能爆炸吗? [01:46:36]

Rob Wiblin: 还有其他关键证据与这个时间线问题相关吗?

Ryan Greenblatt: 我认为一个相当可怕的事实是,我们正在进入这个推理模型的状态,人们正在扩展RL和基于结果的任务。现在人们刚刚开始做RL。我认为最初的o1和R1可能几乎完全是在相对狭窄的短任务上训练的,没有那么多计算。

我们对R1的训练内容有一些了解。看起来它是在数学问题、琐事或像GPQA问题这样的科学问题上训练的。它是在可能是竞争性编程或短编程任务上训练的。但据我们所知,它不是在像软件工程这样的任务上训练的——需要多个步骤的任务。可能只训练了真正的单步任务。可能他们从未进行过涉及多个步骤的训练,至少不是作为他们主要RL阶段的一部分。

所以如果这是真的,你可能会认为有一堆低垂的果实可以扩展RL范式并将其应用于类似代理任务。

除此之外,还有将计算扩展得更远。你可以在环境的多样性上扩展,也可以在计算量上扩展。我认为Epoch做了一个估计,他们认为在DeepSeek-V3(R1基于的模型)之上的RL大约是100万美元。100万美元在今天的AI行业里是小钱。

所以你可以在明年内将其扩展超过两个数量级。现在,可能会有一些扩展上的困难,我认为可能会有基础设施上的困难,但原则上这是可能的。所以在我们看到一个数量级带来的巨大收益的程度上,我只是觉得,伙计,算法进展,稍微调整一下这些东西,我们可能会在明年看到疯狂的东西。

Rob Wiblin: 抱歉,o1和o3也是经过强化学习的推理模型。我想象OpenAI在这些模型的RL上花费了远远超过100万美元。那么为什么这表明呢?我的意思是,我们不认为o1或o3比R1好很多。

Ryan Greenblatt: 首先,我实际上不知道o1或o3是否比R1用更多的计算进行训练。我认为我们不知道。

一些你可能认为它没有用那么多计算进行训练的原因:一件事是我认为在基础设施层面上扩展RL确实很难,他们可能没有基础设施一开始就做到这一点。

第二件事可能是很难快速扩展环境的数量,但最终有一种可扩展的方法来做到这一点。所以可能有很多回报。

接下来我们看到的是从o1到o3的性能有了相当大的改进,这是证据表明,如果这种趋势继续下去,可能会非常快。所以我们看到他们在相对狭窄的领域进行RL,但在这些相对狭窄的领域内,进展看起来非常快。所以在他们可以扩展他们训练的领域的程度上,这可能比那更广泛,我们可能会看到相对快速的进展。

所以我认为这还不清楚。在o3正在饱和这一范式中一堆低垂果实的程度上——这在某种程度上可能是真的;当然它正在拉一些低垂果实——那么这个故事就会消失。但在我们在RL上还有很多未开发领域的程度上,我认为这可能是更引人注目的一年时间线的故事之一。

明确一点:我不期待这个。我认为这不太可能,但我认为一条路径是RL比你预期的更好地泛化,它可以比你预期的稍微更进一步。也许在年底你几乎可以自动化研究工程师水平的能力,可能稍微低于这个——然后事情可能会从那里变得非常疯狂。

Rob Wiblin: 我明白了。你说这不太可能,但这是可能的。如果它真的发生了,这就是它会发生的路径。

Ryan Greenblatt: 是的,我认为最可预见的路径将是在一年内扩展RL。这个论点是我的同事Josh Clymer让我注意到的。所以功劳归他。

AI可能在取代人类方面遇到困难的原因 [01:50:33]

Rob Wiblin: 在我们继续之前,关于这个时间线问题还有什么要说的吗?

Ryan Greenblatt: 我认为另一个怀疑的来源是,当然,也许你可以让这些LLM变得相当聪明,在这些任务上做得很好,但它们不需要一堆其他属性来取代人类吗?

你知道,它们需要能够在工作中学习。人类在做任务时,他们正在学习如何做他们正在做的任务。而AI的样本效率较差,所以你可以投入很多上下文,它们可以基于此学习如何做得更好,但这相对肤浅,相对较弱。

另一件事是AI目前有有限的上下文长度,可能在非常长的项目中跟踪上下文有困难。我认为有效上下文长度可能比实际上下文长度短得多,因为它们可以在整个上下文长度上进行检索,但它们可能无法轻易地对其进行综合——因为我觉得当我做任务时,我得到一些感觉,某种水平的感觉,我得到更好的直觉。我得到一些关于项目进展的总体感觉。我认为AI可能在跟踪所有这些上下文上有困难,即使你把它们全部扔进去。

也许有绕过这个的路径,所以我想谈谈这些结构性因素。

对于这个在工作中学习的事情:一方面,我们可以研究如何使上下文内的样本效率更好。一条路径是,不是有这种更浅的架构,你并行处理所有token,它们可以互相注意……Transformer架构在某种意义上是根本浅的。我不知道你想在多大程度上深入了解这一点,但你可以改变为一个不是那么根本浅的架构。

特别是,最近有一些论文关于拥有更像我们当前架构的东西,你可以以更深串行的方式处理激活,这可能允许AI吸收上下文,有更多的整体感觉,并从正在发生的事情中更快地学习更多的上下文。

Rob Wiblin: 你说的“根本浅”是什么意思?

Ryan Greenblatt: 我的意思是,如果你看一个token,模型在某种程度上产生下一个token的一些概率分布。它只能有这么多串行步骤,基本上因为你运行每一层在每个token上。在每一层,你可以注意所有前面的层,但你不能注意后面层的前一个token。所以如果你想象你有60层,第40个token的第10层可以注意所有前面token的第9层及之前,但不能注意第39个token的第60层。所以这意味着如果AI在层的末尾得到了一些好的见解,后面token的较早层不能考虑到这一点。

我的意思是,能力人们正在研究它,像往常一样——或者也许不是像往常一样,但在某种程度上——并且正在研究改变这一点的方法。

我认为我们目前必须解决这个问题的方法是,虽然AI在这种意义上是浅的,但它们在token方面并不浅。所以如果你有一个推理模型,是的,它在那种意义上是浅的,但它也可以产生自然语言token,这是它更新的思维,它可以继续通过这种方式进行相对深入的计算。所以它可以通过自然语言中的所有步骤解决有50步的数学问题,即使它不能在这个相对更串行瓶颈的前向传递中完成所有步骤——这是对具有这种性质的transformer激活的术语。

但你可能会担心自然语言不是做思考的好媒介——我有些不在自然语言中的想法——但我认为原则上你可以有一个更深的架构。

我期望人们正在研究这个,我认为这带来了一些安全风险,因为我们有这个很好的性质,我们可以看思维链,对AI在做什么有一些感觉,并对此有一定的信心——至少可能有某种信心——因为AI在某种程度上被迫使用思维链来使这种串行推理工作。

但如果所有推理都是潜在的,我们就失去了这个性质,现在我们处于一个更危险的制度中,AI可能在做颠覆性的推理,而我们甚至不知道,至少默认情况下不知道。

Rob Wiblin: 我没有完全理解,但你说你会改变前向传递的发生方式,这样它就能在其中做更复杂的推理,这创造了它可以在实际输出任何我们可以评估的token之前进行策划的可能性?

Ryan Greenblatt: 是的,基本上是这样。所以基本上你应该想象transformer不像一个循环架构,它不是循环的。所以你的大脑是循环的:你思考一些想法,你思考更多想法,它是完全循环的——包括,据我们所知,我们不能轻易发声的循环状态。比如我认为人们可以做他们不能轻易发声的推理,他们可以发声的一些推理。我认为现在transformer可以做相对有限的非发声推理,然后是一堆发声推理。

所以可能是你可以改变架构——这对架构来说是一个很大的改变——以这样一种方式,使它们可以做更多的非发声推理和更密集的推理。

有一些论文展示了这一点,比如Meta的Coconut论文。我认为所有现有的论文都是相对弱的,没有得到那么多——对论文作者抱歉,但这是我的感觉。但可能是你可以推动这个架构向前,我认为人们不一定真的非常努力地让这个工作,因为其他地方有低垂的果实。

Rob Wiblin: 这样改变架构会非常耗费计算吗?

Ryan Greenblatt: 实际上我刚才描述的事情非常天真地在生成上会使用完全相同数量的计算。因为现在你必须一次做一个token,你可以不那样循环激活。

现在,如果你在所有梯度下降上应用梯度下降,它在训练时计算量更大。它使梯度下降的计算图更烦人,因为一些结构性原因我不知道我们是否应该深入。但是的,粗略地说,我认为在训练时计算量更大,如果你在阅读某些东西时也会计算量更大。

有很多被诅咒的技术原因说明这是真的,但基本上如果你在阅读时应用这种循环,那么你一次只能读一个token。而transformer可以并行处理一整段文本,所以transformer在阅读时非常快。所以你可以让一个transformer读一个像一百万个token长的文档,我认为原则上,如果你愿意扩展计算,可能在一分钟或30秒内——这是非常非常快的。而且很可能你甚至可以做得更快,因为它基本上是并行读整个东西,串行步骤的数量更少。

但如果它一次读一个token,你必须做所有层,那么它会和生成速度一样——单个上下文中的生成速度默认更像是每秒100个token,尽管人们已经展示了更快的速度。所以有一些方式它更昂贵,但我认为最终成本没有那么高,而且很多这些成本已经被推理范式承担了。

当自动化AI研发时,事情可能会变得非常快。或者不会。 [01:57:25]

Rob Wiblin: 好的。我很好奇:在我们实际上能够大部分自动化AI研发的时候,你认为这个过程会如何展开?它会是什么样子?它可能以哪些不同的方式展开?

Ryan Greenblatt: 我认为有一个大问题,那就是:假设AI公司已经完全自动化了AI研发,即使是最好的研究科学家也增加不了多少价值。也许他们增加了一点点价值,但基本上公司是完全自动化的。我认为在试图做AI预测的人们中有一个历史观点,认为在这一点上你会得到非常快的进展,因为AI正在自动化研发,它可以比人类做的时候运行得更快。

现在有一个问题,快多少。除此之外,还有一个问题,进展会减慢吗?所以可能是AI正在自动化AI研发,但它们消耗了一堆低垂的果实,你有有限的劳动力供应,然后进展减慢,因为你投入了很多劳动力,但你只能走这么远。

另一个问题是,你是否在实验的计算上遇到了很多瓶颈?所以你有所有这些AI研究人员,可能比你的人类研究人员多得多,但也许他们没有多少计算用于实验,所以他们在产生进展上没有那么多容易的时间。

有一个问题是,初始速度有多快?它会减慢吗?

除此之外,甚至可能不仅仅是进展以相同的速度继续,可能是进展加速。这种情况可能发生的方式是,你有你的聪明的AI研究人员,他们做了一堆算法进展。你用这个算法进展来构建一个更聪明的AI,那个AI让进展变得更快,因为你可以在相同的计算量下做更多的劳动力。所以即使AI公司可以访问的计算量是固定的,进展原则上可以变得越来越快。

Tom Davidson已经对此做了很多建模,关于我们是否期望进展加速或减慢?我会在谈论这个时偷取他的一堆东西。人们称之为智能爆炸或奇点,进展正在加速。

我认为值得注意的是,我的观点是,即使进展正在减慢,它可能在客观上非常快。可能是你从一个高进展率开始,然后随着时间的推移减慢。

所以一种分解这个问题的方法是,首先我们必须谈谈这个问题,初始速度有多快?然后也许我们应该谈谈,它是加速还是减慢?然后从那里我们可以说,比如在第一年我们得到了多少进展?

Rob Wiblin: 是的。在打开开关并几乎自动化一切的时候,初始速度是由什么决定的?

Ryan Greenblatt: 非常短的答案是没有人知道。稍微长一点的答案是我们可以尝试基于对算法进展是由什么驱动的有一些感觉。

所以AI公司中的算法进展是由两个主要因素驱动的:劳动力——人们致力于此,人们思考更好的算法,人们实施实验——和计算,使用计算进行实验。

我现在要把实际训练最终模型分开,所以我们只谈论这个算法进展。历史上算法进展可能每年增长超过3倍,包括训练后。也许更像是每年4倍或5倍。当我说4倍或5倍时,我指的是什么?像什么单位?这是在有效训练计算方面:就像每年都像你可以用你拥有的计算量训练一个比原来大四到五倍的模型。

所以这是初始的进展速度。现在我要谈的是AI研究人员能让这个发生得更快多少?这是一个有点棘手的问题,因为我们必须回答这个问题,如果你让劳动力更多、质量更高,我们从那里去哪里?因为我们有两个输入到生产中——劳动力和计算——如果我们大幅增加劳动力,事情是否只是在计算上遇到瓶颈,或者你能推动进展快得多?

所以我认为一个天真的开始建模的方法是,我们必须说,有多少劳动力,多少AI,它们有多好,多快?

Rob Wiblin: 用于实验的可用计算甚至可能下降,因为你现在必须用你的计算来运行你的AI研究人员,对吧?

Ryan Greenblatt: 是的,当然。我认为这可能是一个小因素,因为——我的意思是,我们不知道——但我的猜测是,在算法进展上的计算的最优分配是:五分之一在AI劳动力上,五分之四在运行实验上。大致是这样。所以如果你想象这个计算量,那么你有更少的计算来运行实验,但数量上是80%的计算,所以不是什么大问题。所以我认为这不是画面中那么重要的一部分。即使你想象50/50,那只是一个两倍的因素。所以如果你说,好吧,你会花所有的计算运行AI研究人员,你没有计算用于实验,那只是一个未受迫的错误。

好的,那么有多少AI研究人员?人们对在你第一次可以自动化一切的时候你期望有多少AI研究人员做了各种估计。你肯定必须有足够的研究人员来自动化一切,但出于各种原因,我认为我们预期在那个相同的质量水平上你会有比需要自动化一切更多的劳动力。因为在你可以开始自动化一切的第一点,你可能在同一质量水平上有更多的劳动力。

我认为推理时间计算可能使这不同。可能是,在你第一次可以自动化一切的时候,你几乎不能自动化一切。但我认为这不太可能持久。所以第一次你可以做到这一点,可能你可以非常快地大幅降低成本,使用像我们之前谈到的蒸馏之类的东西。

所以总的来说,我的感觉是,我不知道,我做了一些粗略的估计。我会尝试通过其中一个。也许我们开箱就有相当于1亿人类劳动力的等价物。因为我们期望我们在2029年、2030年期间可用的计算量大约是10^28、10^29 FLOP。然后如果你这样做,你会得到你能生成多少token的感觉,然后你尝试做一些粗略的转换在token和人类劳动力之间。

然后好的,可能的情况是你通过推理计算得到了一些,所以也许我们下降一个数量级,因为你通过推理计算得到了一些。

然后为了完全自动化,我认为你必须接近像Alec Radford的质量——Alec Radford是一个著名的AI研究人员,他有许多最重要的能力见解——或者,你知道,Ilya Sutskever或其他什么。要达到这个质量水平,也许你必须花费更多的推理计算。我认为用顶级研究科学家或顶级研究工程师的单位来思考是有用的,因为我认为这会使一些转换更容易。假设你有一百万个Alec Radford的等价物并行运行。

但然后有另一个因素,就是AI可以运行得更快。例如,他们在晚上工作,这给了他们一些优势,因为他们可以串行做更多的实验。所以人类,由于串行时间,一年内只能完成更少,因为他们可能只工作三分之一的时间——或者对于凡人来说,可能是四分之一的时间,有些人可以推到一半的时间。在专注时间上有一些收益递减。

然后他们也可以运行得更快,因为他们吐出token更快。有一些方法可以让这更进一步。所以也许我的总体感觉是,也许他们在每个时间点快5倍,然后由于全天候运行快3倍。那是15倍的加速。

除此之外,我认为你可能会得到另一个2倍的加速,因为有些时候你可以运行一个更笨的AI,对某些子任务来说快得多。人类不能这么容易地做到这一点,因为这需要上下文切换。所以原则上你可以想象人类使用一个更笨的AI非常快地完成一些子任务并来回切换,但你不能把我的大脑状态与更弱AI的大脑状态交换。而例如对于transformer,你可以直接把上下文输入一个更弱的AI。你可以训练更弱的AI与更聪明的AI一起工作。你甚至可以做一些事情,比如把更聪明AI的激活塞进更弱的AI,并在运行时做各种可变计算缩放的事情。所以也许这会给你另一个两倍的因子。

所以现在我们达到了30倍的速度。明确一点,这些加速将会抵消。它们将会削减我们拥有的并行副本的数量。

然后我认为你可能从AI比人类更好地协调中得到另一个两倍的因子。所以我谈到了也许他们可以与更弱的AI交换上下文。好吧,也许他们也更擅长在并行任务中协调。

让我们以加速的方式思考:他们可以完成一个对人类来说并行化不可行的任务。比如有时候,当你做一个八小时的软件工程任务时,原则上你可以有五个人并行工作,但你在效率上损失很多,也许没有得到任何串行加速,因为人类非常不擅长协调。

但也许AI可以从同一点分叉出来,拥有所有相同的上下文。Dwarkesh有一篇关于AI公司所有结构优势的好文章,它谈到了这种事情。因为你可以分叉,也许你可以得到更多的加速。假设这是另一个两倍的因子。

现在我们达到了60倍的速度,对吧?所以我们有我们的百万AI以60倍的速度运行。让我们把它变成50倍的速度,抱歉。所以我们有20,000个AI并行实例,每个以50倍的速度运行。所有这些都是和顶级研究科学家、顶级研究工程师一样好。

现在,这比OpenAI快多少?也许OpenAI,在构建这个AI的时候,会有大约2,000到5,000名研究人员。研究人员的数量随着时间的推移在增长。

所以天真地我们有10倍更多的并行实例,但它们也是50倍更快。然后有一些混乱的转换,关于你投入多少额外的劳动力,考虑到计算瓶颈和其他因素,以及并行运行的惩罚,你期望的整体加速是多少。所以你知道,九个软件工程师不能在一个月内完成需要九个月的事情——你知道,同样的婴儿——

Rob Wiblin: 你不能让九个女人在一个月内怀孕。

Ryan Greenblatt: 是的。我认为人类遭受的一件事是并行化惩罚,所以AI运行得更快意味着在某种意义上他们在这方面遭受得更少。并行副本更多,大约10倍左右,所以他们在这方面吃了一些回报,但你也有直接的50倍更多的速度和更多的质量。质量也推入并行性。

所以我就像,也许我们应该真正把OpenAI的劳动力想象成比更好的人少5倍或10倍。所以也许就像他们有200或400个Alec Radford或其他什么。有些人认为这甚至比这更极端。然后如果就像他们有200或400个Alec Radford,我们有20,000个Alec Radford以50倍的速度运行,我直觉上觉得事情可能会变得疯狂。

但问题只是计算瓶颈有多大?人们对此有很多分歧。我们真的不知道。没有人运行我们需要找出这有多重要的实验。我们只有调查和感觉和随便什么。

Rob Wiblin: 你会运行什么实验?

Ryan Greenblatt: 这是我最喜欢的:谷歌以拥有大量不同的团队而闻名,我认为在某些时候,有人搞砸了对某个团队的计算分配,或者有一些外生冲击导致某个团队的计算分配比应该的要低或高。然后你可以看看当这种情况发生时,进展加速或减慢了多少?这会给你一些关于边际生产函数是什么样子的感觉,关于计算边际回报是什么样子的。至少这会给我们一些关于发生了什么的感觉。

在AI的情况下,我们离人类边际非常远,因为我们有更多的劳动力。所以情况可能在结构上非常不同,但这会给我们一些感觉。

我认为我的梦想是有人去GDM或其他地方,搜集他们一定在运行的所有自然实验的数据,并对此做一个非常经济学家风格的分析,找出局部回报是什么样子的。这只能告诉我们这么多,因为它只是当前制度周围的回报。

我认为比这更好的是像有一小群研究人员,你给他们少得多的计算。你知道,如果谷歌真的喜欢运行实验,不只是给我们数据——我挑谷歌只是因为这是一个例子,但其他公司可以这样做——他们可以拿一些研究人员分成两组或更多组,让一些研究人员得到少得多的计算,得到更像我们期望AI研究人员拥有的计算量,比如,看看他们运行得多慢。如果慢得多,这会给我们一些关于制度的感觉。

我认为这更难理解,部分原因可能是适应时间。所以你让人类处于这种计算量少得多的制度中。一开始他们慢得多,但他们学会了在这些限制内工作。我认为AI会有很多时间学会在这些限制内工作,因为他们运行得快得多。

无论如何,我的感觉是,你的AI研究人员的初始加速,瞬时加速将是……当我考虑所有这些事情并尝试在生产函数上做数学时,也许我做了一些像Cobb-Douglas生产函数的东西,有一些因素,我们尝试对人类和AI都应用一个并行惩罚,我们标准化劳动力。这里有一堆混乱的东西。

我认为内部观点,完全从当前前沿经济模型推断,吐出像这样的数字,取决于你如何做估计,我认为我最喜欢的常数选择大约是50倍更快。我认为这可能高估了速度。那是比当前进展速度快50倍。当前的算法进展速度每年略多于半个OoM。所以天真地这会让你得到一些真正可怕的瞬时速度,每年25个OoM。

我想现在人们可能会说,“得了吧,你说的那件事,太荒谬了。”我想是的,我说的那件事,有点荒谬。所以也许我们想对这个瞬时加速的观点大打折扣。所以不是有相当于50年的进展,或一年的进展在一周内,我想也许那太疯狂了,然后我最终降低到可能更像是20倍的进展速度,也许甚至比那更低一点,作为我的中位数猜测。

再次,我认为这像是疯狂的猜测;我们从一个我们甚至不理解的制度推断到一个非常不同的制度。没有人知道。所以它可能快得多;它可能慢得多。或者它不能快那么多,我想。

智能爆炸会以多快的速度减慢? [02:11:48]

Rob Wiblin: 所以在完全自动化的时候,听起来它可能在那时快得惊人。但我想让这听起来不那么疯狂的一种方式是你说它一开始非常快,然后很快开始趋于平缓,所以你只有一周的这种惊人的进展水平。我想另一种可能是它甚至可以更快——你说这也是一个活的可能性。

你想解释一下什么证据会影响我们预期它会减慢还是加速吗?

Ryan Greenblatt: 是的。另一件我没有提到的事情,我刚才只是提了一下,是我在想象我们只是飞过这个人类制度,在人类水平附近没有重要的不连续性或扭结。但原则上可能是我们能够通过某种搭便车或快速跟随人类行为达到人类水平。我的猜测是这不是一个很大的因素,它只是一个一次性成本,不是那么大。但我想我们不应该太深入这个。

无论如何,我们有了初始速度有多快?它是加速还是减慢?我们有了极限是什么?最终它必须减慢,对吧?所以我们有这个模型,它可能甚至一开始在加速,它继续加速,它遵循这种双曲线轨迹,在有限时间内趋于无穷。最终那必须结束,当你接近极限时。我们不知道它什么时候开始减慢。它会在某个时候减慢。

但我认为全考虑模型是:事情可能非常快,它可能发生得相当快。我认为估计意味着我的中位数可能是我们在一年内达到大约五到六个数量级的算法进展。

Rob Wiblin: 而且有点难以确切知道这将对模型实际感觉有多聪明产生什么定性影响。

Ryan Greenblatt: 是的,当然。这是另一个很大的不确定性来源。我一直在做这个非常经济脑的分析,我把所有东西都放在这些有效计算单位中,我做了一堆快速转换来回劳动力供给来得到一堆东西。

有很多不同的方式来可视化这个进展。我还应该说,我忽略了一些因素,比如你在这期间扩展计算和其他一些小考虑。这些都计入我的一年五到六个OoM的进展中。但我不认为我们应该太深入这个。

无论如何,我不知道……我有这个对我来说直观的初始速度、加速/减慢极限的模型,然后极限影响,即使它一开始在加速,它什么时候又开始减慢。这个模型对你有意义吗?

Rob Wiblin: 是的,我认为这有道理。这是你在玩的三个大风格因素。

Ryan Greenblatt: 是的。然后有一堆棘手的细节,假设极限是这么多OoM远。加速还是减慢的因素,以及这如何随时间变化,你可能会认为它一开始在加速,停止的时间非常接近极限的结束。或者可能是它在极限上更连续,这将对你得到多少数量级有很大的影响。

但无论如何,我认为这是那种直观的模型。我认为人们应该玩这个。我认为玩这种模型很有趣。很明显,这既是一个简化的模型,也有疯狂数量的移动部分,我们几乎没有数据来估计。我们基本上是从垃圾数据中大规模外推拟合这个模型。你知道,我们能做什么?包括像猜测你能比人脑高效多少这样的垃圾数据。

所以就像你说的,我们非常不确定,我们有巨大的误差线。我的观点是你将得到一些初始加速,你也能够投入更多的计算。所以也许第25百分位是你比前几年的进展快一些,或者第25百分位可能只是比现有进展快一点点。我认为第80或75百分位可能是完全疯狂的。

Rob Wiblin: 所以这是关于在我们能够自动化事情的时候,它实际上加速公司正在做的事情多少的问题。你说这个的第25百分位可能是它只是和以前大致相同的速度——但第75百分位,这甚至不是一个极端的结果,它极大地加速了研究。

Ryan Greenblatt: 是的。至少很快。可能是初始加速不那么高,但加速随着时间的推移增加,减慢相对较慢。

而且,我一直在谈论这个一年的时间尺度,但我认为在很多建模中,大部分进展可能发生在前六个月——因为你已经开始有点快地达到这个收益递减的制度。

Rob Wiblin: 就像你走得越快,你越早开始遇到极限。

Ryan Greenblatt: 是的,没错。你知道,它可能走向非常不同的方向。

六个数量级的进展……那甚至看起来像什么? [02:30:34]

Ryan Greenblatt: 无论如何,我一直在说六个OoM的进展:那甚至意味着什么?这看起来像什么?

Rob Wiblin: “OoM”是“数量级”的意思,对于任何没有理解但仍然和我们在一起的人。

Ryan Greenblatt: 我很抱歉。我喜欢OoM。多好的术语啊。这是我最喜欢的之一。

Rob Wiblin: 拟声词。

Ryan Greenblatt: 是的,是的,太棒了。无论如何,六个OoM,那是多少?所以大致是两个GPT:在GPT-2和GPT-3之间大致有一个OoM,大约10倍的算法进展和大约100倍的计算。非常粗略地说,也许比这少一点。GPT-3和GPT-4之间也有类似的东西。

所以我们可以做的天真定性模型是,我们可以说,GPT-3到GPT-4的差距有多大?然后我们可以说,我们有两个这样的差距:再多两个GPT。然后我想,那是什么意思?我认为两个GPT的分析让我感觉更放心。我想,两个GPT,那有那么糟糕吗?我是说,得了吧。

我认为另一个框架是这是多少年的AI进展?我认为六个OoM大约是五年的AI进展,非常粗略地说,也许是四年。所以就像从2020年,我们刚得到GPT-2 XL到现在。所以就像——

Rob Wiblin: 但我想直观地知道这意味着什么很难,因为GPT-2对任何事情都几乎没用。

Ryan Greenblatt: 或者GPT-3非常接近。是的,所以那几乎没用。我认为也许我们甚至更不了解的是,在人类范围之上的进展意味着什么?比如,在我们开始这种疯狂事情的时候,AI正在匹配最好的人类专业人士。也许它们没有那么高效,没有那么聪明,但通过各种技巧和随便什么,它们基本上可以匹配人类专业人士。现在,你能走多远?

所以有GPT。我认为另一个概念是尝试从GPT转换到某种智商或某种概念。人们对此有非常不同的直觉,但如果我们想象我们开始于可能是150智商的AI,因为它们能够自动化一切……再次,智商是一种垃圾单位。

Rob Wiblin: 感觉它不是为这个目的设计的。

Ryan Greenblatt: 哦不。没有什么是为这个设计的。我们也一直在滥用这些经济模型。我一直在做所有这些经济风格的分析,在经济模型上,这些模型肯定不是为这个制度设计的。增长经济学,我们从中提取的领域,并不是那么好的领域——抱歉,对增长经济学家们没有冒犯的意思,但只是没有那么多人在研究它,我们在很多事情上有很大的不确定性。

无论如何,所以有两个GPT。那是多少智商点?这个直觉让我觉得也许一个GPT是略多于50智商点或什么的。所以我们从150到250,而且我们还有更多并行副本,它们可以运行得更快。这是一些直觉。

另一个直觉是它们在人类专业人士方面有多好?这里有一个我认为很好追踪的趋势:如果你看编程比赛,我们在2024年看到了在这些编程比赛中的排名进展。一开始,也许AI大约是第20百分位,大致。然后它们是第50百分位,然后我认为o1是大约第75百分位,o1-preview是略高于第90百分位,然后o3是第99.8百分位或什么的。

所以在计算或算法进展的数量级和你在人类专业人士中的排名顺序之间有一些关系。在我们开始这种疯狂事情的时候,也许AI大致像人类专业人士的第100或第10好的排名顺序,然后我们有这六个数量级的进展。

我认为我们可以尝试在数量级和排名之间进行某种转换——就像每个数量级可能意味着你在这个排名上大约好10倍。所以你不是第1000好的,你是第100好的。我的猜测是略高于。就像一个有效计算的OoM比这种排名顺序的OoM略多。我认为没有人非常仔细地做过这个分析。应该有人做。假设它比一个OoM略多,那么用我们的六个OoM,我们得到八个OOM的排名顺序。

Rob Wiblin: 所以很快你就低于一了,对吧?

Ryan Greenblatt: 是的,你低于一,所以现在我们正在外推这个东西。一种说法是我们很快达到人类同等水平,然后也许我们还有略多于六个OoM的进展。或者说字面上最好的人类同等水平,然后我们还有六个OoM的进展。所以就像从第100万好的人类到一个东西——因为百万是六个OoM——到一个东西的最好的人类之间的差距一样大。所以就像我们拿最好的人类,我们做了相当于从第100万好到最好的事情。

这是另一个定性的直觉。我不知道这告诉你多少,但你可以做一些外推。这是无耻地从Daniel Kokotajlo的思考OoM的方式中偷来的。

现在,我们在这个问题上也有不确定性。所以我认为如果更像是每个OoM是两个OoM,那么更像是你比最好的人类专业人士好超过十亿倍。

Rob Wiblin: 你从第十亿好的到最好的,然后你又做了那个跳跃。

Ryan Greenblatt: 是的,没错。这是一个相当大的差距。重要的是,我认为你不能理解人类范围内的第十亿好的,因为从职业中概括出来没有意义。比如,谁是软件工程的第10亿好的人?

Rob Wiblin: 这是一个愚蠢的问题。

Ryan Greenblatt: 这是一个愚蠢的问题。我认为软件工程的第100万好的人现在至少有点意义。我们可以开始处理这个。更小众的人类职业,它不那么有意义。所以我认为我们有这种疯狂的差距。

另一个我喜欢的直觉是思考劳动力供给有多大。所以在我之前做的很多关于进展是加速还是减慢的经济分析中,一个重要的问题是每个有效计算的数量级在你能投入问题的认知汁液方面有多少,就你能投入生产函数的劳动力部分有多少?

一种方法是我们可以说,一个计算的数量级相对于并行工作者的数量级是多少?我的理解是,我们最好的可用估计是每个有效计算的数量级大约是两个并行工作者的数量级。

Rob Wiblin: 这是因为有很多人并行工作实际上效率很低?

Ryan Greenblatt: 是的,AI更快,更有能力,你得到更多的并行副本。所以当你扩展有效计算时,至少在当前的范式中,你有更高效的AI,它们更聪明,可能。所以你基本上可以并行扩展所有这些因素,你可以扩展哪个因素最有效。

Rob Wiblin: 我明白了。所以你可以在拥有更多和更聪明之间分配你的计算预算,以最有效的组合。

Ryan Greenblatt: 是的。你可以让你的训练运行偏向于,我们是训练一个更大的模型,还是训练一个更小的模型?所有这些之间有一些权衡,有点复杂。有方法在推理计算和训练计算之间进行权衡。但总的来说,就像我要用并行副本来做面额。

所以我们开始于像20,000个天才以50倍的速度运行,然后我们有六个数量级——但我们实际上是在加倍,所以我们有12个数量级。那是一万亿。所以现在我们到了20千万亿以50倍的速度运行。现在,我认为这可能有点误导,因为一个重要部分是并行瓶颈。但如果你习惯于从人类组织的角度思考,那么我认为你应该认为20千万亿人类以50倍的速度运行是正确的,而且像踩到脚趾的数量在某种程度上是类似的。

然后在实践中,也许我实际上更期望的是,也许它定性地更接近于像十亿或二十亿比人类聪明得多的人类。所以像250智商的人类以100倍的速度运行。可能我的数字有点草率,但我想那更像是我的直觉。

然后你可以用专业人士做同样的事情。你必须小心不要重复计算。他们比人类专业人士好得多的部分机制是有更多他们,所以所有这些事情都会交叉影响,但也许就像你从第100万好的人类到最好的人类,然后比那好百万。我们做同样的外推。也许就像我们至少有数百万他们以100倍的速度运行,这就像,好吧,这他妈太疯狂了,对吧?

例如,非常快,AI将在问题上做比人类历史上更多的认知进展,以巨大的幅度。而且非常天真地他们以100倍的速度运行。所以就像如果有些事情你可以纯粹在认知领域完成,比如完全不需要接触世界,那需要人类10年——那需要一个100人的团队10年:好的,繁荣,在十分之一年内完成,只用劳动力供给的一小部分。

所以我认为我们应该开始想,这个过程会吐出什么样的疯狂技术?有很多事情我认为原则上可以大大加速,我们甚至没有非常努力地尝试。

努力已经花在了原子精确制造上。没有那么多努力花在了纳米机器人、纳米系统等等上。我认为最初思考这个的Drexler认为这将是非常少的劳动力,所以认为人类可能很容易做到,但投入的努力非常少。所以看起来非常可能你非常快地从这个制度中出来,比如,你知道,原子精确制造,允许大规模增加计算供应和所有其他疯狂的事情。

这就像一个例子。我认为模拟思维和一堆其他事情可能发生得非常快。

被忽视且重要的技术工作人们应该做 [02:40:32]

Rob Wiblin: 总结一下,讨论一下你认为对这个节目的听众来说,考虑到你对不同运行方式的巨大预测分布,最高优先级的事情是什么,会很好。

在技术方面,有哪些特别被忽视和有用的东西?

Ryan Greenblatt: 我认为相对于正在发生的事情,应该有更多的人做控制工作。我的同事Buck可能会更多地谈论那会是什么样子,所以我不会在那里深入细节。我认为现在这比之前被忽视得少了很多,但在边际上似乎仍然很好。

我认为应该有更多的人花时间思考和研究如何训练明智的AI,能够做出比我们更好的决定。基本上如何达到一个点,你已经排除了模型策划反对你的情况?你如何让它们成为你乐意交出的AI?这是一个概念上更棘手的领域,我计划花更多时间思考应该从这个领域衍生出哪些研究项目。

有很多关于我称之为“模型内部”的工作,人们可以去做。也许这某种程度上属于控制,但像探测以确保我们能够检测模型是否采取了不协调的行动这样的事情。我们如何做到这一点?我们如何知道它是否有效?这种事情。

有一些工作可能在解码不可解释的推理上。假设模型学会了在其思维链中隐写式地推理——

Rob Wiblin: 所以这是它们在策划反对你,但你看不出来。它有点被编码了。

Ryan Greenblatt: 是的。隐写式是它们使用不同的符号,你不明白发生了什么。或者也许对你来说看起来像胡言乱语。也许它看起来像一件事,但实际上是另一件事。或者也许它们做了很多潜在的推理。我们之前谈过也许模型做了很多潜在的推理而不是自然语言,能够以某种方式解码那种推理,并尝试找出一些方法训练解码器,这些解码器在某种程度上工作并给我们一些关于AI实际在思考什么的意识,我认为这可能相当有帮助。

除此之外,有很多不同的工作展示了AI现在非常强大。我谈了一些关于我认为在已经展示的能力水平上有多少悬而未决的问题。我认为展示当前系统有能力,未来系统非常有能力,似乎在边际上可能有点好,因为我担心世界对正在发生的事情准备不足的情况。

所以像展示高水平的自主网络能力这样的事情,我认为这是一个甜蜜点,既直接相关于很多人已经在考虑的威胁模型,也不远离我们担心的情景,这些情景涉及大量的自主网络活动,这实际上是威胁模型的关键部分。所以它可能以一种很好的方式弥合这种分歧。特别是专注于在这个领域中我们能够实现的最佳演示。

另一个人们应该做的重要领域是我称之为模型生物的东西:尝试产生不协调模型的实证例子,以研究这有多可能发生并提供证据。所以像不协调是否在XYZ情况下出现?奖励黑客是否出现,它如何泛化?像对齐伪造论文和各种延续这样的事情。

我认为这里的部分希望是收集证据。部分希望只是有一些东西可以和技术一起迭代。即使是那些对世界不太有说服力或可能不提供任何关于不协调证据的模型生物,如果它们足够类似以至于我们可以在它们上进行实验,那可能非常有用。

Rob Wiblin: 因为你可以尝试开发在模型生物情况下有效的对策,然后希望会迁移?

Ryan Greenblatt: 是的。我认为对齐的一个关键困难是通常我们通过实证迭代解决问题。在不协调的程度上,我们的测试具有欺骗性,那么如果我们能提前找到某种方法绕过这个——或者只是在最后一分钟准备好构建它,然后在那些情况下做一堆迭代——我认为这可能相当有帮助。

治理中最有前途的工作是什么? [02:44:32]

Rob Wiblin: 好的,这是技术方面最有前途的东西。在治理或其他角度上有什么突出的东西吗?

Ryan Greenblatt: 是的,我认为有各种各样非技术干预的空间,看起来相当不错。我对这些事情很难有非常强烈的看法,因为我没有花那么长时间思考它。有很多工作。

我们在这里讨论了很多概念性的点,我认为有人研究所有这些细节,试图更好地理解起飞动态,试图更好地理解除了不协调之外可能出现的其他考虑因素。像我们应该多担心人类权力攫取?我们应该多担心其他问题?我认为其中有一些。

我认为有很多工作只是在非常深入的技术AI安全和政策世界之间充当中间人,并在某种程度上进行翻译。

有很多特定的法规可能是有益的。我认为让欧盟行为准则更好似乎不错。欧盟AI办公室正在招聘,所以你可以在那里工作。我认为可能有其他法规策略实际上可能是好的。

我认为有一些与使协调更有可能或协助协调相关的东西可能相当有帮助。像改进计算治理制度,以便美国和中国可以验证关于当前训练过程的各种声明。我对这有多有前途没有强烈的看法,但我认为令人惊讶的是很少有人在做这个,而且令人惊讶的是不协调。所以也许有人应该做这个,因为它可能是一个相当大的问题。

除此之外,我认为只是有很多人处于他们只是试图提供技术专长的位置;他们处于正在建立技能的位置,他们正在准备有更直接的影响;并且以后,随着事情变得更疯狂,准备好做些什么。

另一个是通用的防御。所以我们之前谈到了AI接管情景。我说的一堆AI接管情景涉及,例如,生物武器。只是普遍提高对生物武器的鲁棒性似乎有帮助。它在多大程度上有帮助是复杂的,但我认为它有一些帮助。

类似地,使世界对AI黑客攻击更鲁棒。我认为它有一些帮助。我认为它可能比其他事情的杠杆作用小,但干预措施引导更多资源到那些事情上,从各种角度和潜在的不同不协调假设来看似乎不错。我认为那些事情即使完全没有不协调风险也可能很有意义。

Rob Wiblin: 是的,我想因为滥用也是一个问题。

Ryan Greenblatt: 是的。除此之外,有很多不同的安全工作可能不错。所以我讨论的一些威胁模型涉及各种结果,比如模型外泄自己。它们涉及模型以流氓方式内部部署,绕过你的安全并潜在使用一堆它不应该使用的计算。

我认为通过安全机制推迟这些事情发生的时间似乎不错。还有安全防止人类行为者窃取模型可能增加延迟的概率,增加减少竞争、更多谨慎的概率。

Ryan当前的研究重点 [02:47:48]

Rob Wiblin: 未来几个月你的研究重点是什么?

Ryan Greenblatt: 现在我正在做相当多的规划和概念工作,然后计划是从中衍生出一堆项目。所以我正在思考这样的问题:在这个情景中你应该做什么,你的负责任的AI公司领先三个月,政治意愿非常低——可能有哪些潜在的对齐措施?你应该采取什么路径?人们应该如何优先考虑?

然后尝试可能提出具体建议,也只在边际上弄清楚事情,基本上目的是看起来Redwood只是尝试制定总体计划,然后从中衍生出一些见解,已经有合理的运气。我认为控制就是从这个过程中产生的。我在更深入地思考这个过程中有了一些更新。这是一件事。

然后我在做一些演示,或者试图研究奖励黑客现在有多大问题。就在最近,我们已经看到RL工作,而之前它并没有做那么多,也没有被扩展得那么远。所以一个自然的问题是:我们得到了多少奖励黑客?那可能有多恶劣?在什么情况下它更或更不恶劣?

之前有一些关于这个的工作,但我认为现在这真的走得相当远,我们可能会预期我们可能看到非常恶劣的奖励黑客,我们可能会看到纯粹由奖励黑客驱动的威胁模型,一直到非常恶劣的结果。原则上,像大规模欺骗人类或试图夺取资产这样的事情可能从奖励黑客中泛化出来。

也有一些故事,通过奖励黑客导致非常有害的不协调,因为你从一个不服从你指令的AI开始,这在某种程度上涉及AI密谋反对你,即使它不是像我们可能对监督信号那样有那么多直接控制的东西。

Rob Wiblin: 好的,你和你的同事在Alignment Forum上写了很多东西,你有一个Substack。那个地址是什么?

Ryan Greenblatt: Substack?redwoodresearch.substack.com。我们的Substack没有短URL,恐怕。

Rob Wiblin: 所以如果你想拉出一些你在这里谈论的事情的线索,很有可能有一篇文章或博客文章是你或同事写的,可以更详细地阐述。

Ryan Greenblatt: 当然。

Rob Wiblin: 我想你在那里列出了一个巨大的待办事项清单。如果听众中有能够帮助解决这些问题的人,那么我想时间紧迫。我们可以利用所有人手来推动所有这些议程,希望事情会变得更好。

Ryan Greenblatt: 当然。

Rob Wiblin: 我今天的嘉宾是Ryan Greenblatt。非常感谢你来到《80,000小时播客》,Ryan。

Ryan Greenblatt: 谢谢邀请我。

(文:AGI Hunt)

发表评论