
邮箱|damoxingjidongzu@pingwest.com
当前的AI模型,正处于一个重要的转折点。从传统的静态推理到能够动态调整的“测试时适应”,AI的演变正迈向自我进化的新时代。
与过去依赖单一推理链的模型不同,测试时适应技术正在为AI提供一个前所未有的能力——在面对新任务时,动态调整行为、优化推理策略。这一突破性进展,解决了AI“固化模式”的局限性,也为实现AGI提供了新的希望。
Keras 之父 François Chollet 在YC创业学院中详细阐述了这一转变,从ARC任务的瓶颈到“测试时适应”的核心意义,揭示了当下在追寻AGI过程中所面临的深层挑战。ARC-2和即将发布的ARC-3,将不仅是AI发展史上的标志性时刻,也意味着AI将迈向一个更高的智能层级。
在这场自适应AI的革命中,AI不再是固定模式的执行者,而是拥有自我进化能力的智能体。
以下为演讲全文实录:
大家好,我是François Chollet,非常兴奋能和大家分享我关于AGI的一些想法,以及我们要如何实现它。以及我们如何才能真正走向这个目标。从这张图表来看,它展现了一个至关重要的趋势:自1940年以来,计算成本逐年下降,每隔十年大致下降两个数量级,且这一趋势在短期内看不到停止的迹象。在AI领域,算力与数据长期以来一直是制约我们取得更多成果的主要瓶颈。


到了2010年,深度学习开始迎来真正的爆发,得益于GPU的计算能力提升和大数据集的广泛使用。这一转变让我们在计算机视觉和自然语言处理这些长期被认为难以攻克的领域,迎来了意想不到的飞跃。特别是在自监督学习的文本建模取得突破后,AI领域开始普遍采用扩大LLM训练规模的策略,这一方法在多个标准测试中取得了压倒性的优势。值得一提的是,只要保持模型架构和训练方式不变,单纯增加数据量与模型规模,几乎就能在这些基准测试中获得更佳的结果。很多人推断,只要进一步扩大规模,就能解决所有问题,实现AGI。我们这个领域开始痴迷于这样一种观点:通过不断地将更多的数据填充到越来越庞大的模型里,通用智能就会自然而然地显现出来。
从深度学习到自适应时代:ARC任务揭示AI瓶颈
但这里面有一个关键问题:我们并未完全理解这些基准测试背后的真实意义。静态、任务专用的能力的“记忆型技能”与能在瞬间理解新问题能力的“流体通用智能”之间,存在着一条显而易见的鸿沟。

早在2019年LLM浪潮来临之前,我提出过一个旨在揭示这种差距的AI基准测试,名为“抽象与推理语料库”(ARC)。自那时以来,像GPT-4.5这样的基础模型,其规模增长了大约五万倍。但它们在ARC基准上的表现却仅仅从0%提升至10%左右,这种提升几乎可以忽略不计。大家可以想象,在座的各位,如果做这些测试,几乎能轻松得分超过95%。而10%的得分,几乎等于没有进展。
事实上,解决通用流体智能的难题,所需的远不止是扩大预训练规模和进行静态推理。这个测试并不是在考察对记忆技能的重复性演练,而是在考查模型在面对全新问题时的理解与应变能力。
然而,到了2024年,局面发生了彻底的转变。AI研究界开始聚焦一个全新的、截然不同的研究方向:测试时自适应。这一思路意味着,模型在实际测试阶段能够根据新情况灵活调整自己。转变的关键不再是将海量知识预先加载到模型中,而是着眼于模型在推理过程中如何学习并适应新的挑战。
我们突然发现,AI在ARC基准测试上的表现有了明显的提升,因为我们终于看到了初步具备流体智能特征的系统。接下来,测试时自适应是否能引领我们进入AGI的时代?如果答案是肯定的,那么或许AGI已经悄然到来。的确,也有一些人持这种看法。
更进一步,超越测试时自适应的下一步又是什么?要回答这些问题,我们首先需要回到一个根本性的问题上:智能究竟是什么? 当我们谈论构建AGI时,所谓的“智能”到底指什么?
回顾过去几十年,关于智能的定义,以及AI的终极目标,学术界存在着两种主要的思潮。特别是在去年12月,OpenAI发布了其O3模型的预览版,这个模型针对ARC进行了深度优化,并在该基准上首次展现了接近人类水平的表现。
到了2025年,我们已完全告别了以往的“预训练+规模扩展”的老旧模式,进入了一个全新的时代——测试时自适应的时代。这一新范式的核心是:模型能够根据在推理时接收到的数据,动态调整其行为。这不仅包括了在测试阶段进行训练、程序合成、以及思维链合成等技术,还涉及到模型在面对特定任务时,如何“重写”自身的操作流程。
今天,在ARC上表现优异的每一种AI技术,都在某种程度上应用了这些新技术。我接下来想探讨几个关键问题:首先,为什么曾经风靡一时的“预训练+规模扩展”模式,未能引领我们走向通用智能?回顾两年前,几乎所有人都相信这一模式是通向AGI的必经之路。但如今,几乎没人再这么认为了,究竟发生了什么?
其次,这次的自适应方法能让我们实现AGI吗?如果可以,也许AGI已经到来,有些人是这么认为的。最后,除了自适应,AI的下一个发展方向可能是什么?我们必须回归一个更根本的问题:什么是智能?当我们说要构建AGI时,,我们所说的“智能”究竟指什么?
AGI的真正定义:从技能到自我进化的转变
回顾过去几十年,在定义智能和确定AI目标方面,有两种思路。一种是马文·明斯基式的观点,即AI是要让机器能够完成通常由人类完成的任务,这与当前的主流观点非常接近,很多人认为AGI是一个能够完成80%有经济价值任务的模型。另一种是约翰·麦卡锡式的观点,即AI是要让机器能够处理它们未曾准备过的问题,是要让AI应对新情况。
我更倾向于麦卡锡的观点。智能是一个过程,而技能是这个过程的结果。技能本身不是智能,能够在多个任务中展示技能并不代表具有智能。
这就好比公路网络和公路建设公司之间的区别。拥有一个道路网络,你只能在预定好的A点与B点之间通行;而拥有一家公司负责修建道路,你则能根据不断变化的需求,随时为新的地点架设道路。智能就像是这种“修建道路”的能力,它是应对未知、开辟新路径的能力。把智能等同于固定的行为程序,是一种逻辑上的错误,它把“过程”和“结果”混淆了。你不能把“有道路”与“能修建道路”的能力混为一谈。

为了更精确地定义智能,我将它看作是一种“转化率”。它衡量的是你所拥有的信息,尤其是过去的经验和开发者为系统预设的知识,如何有效转化为你在未来充满不确定性与新情况的环境中采取行动的能力。简单来说,智能就是如何将过去的信息高效应用于未来的能力,它是一个效率的比率。
这也能解释,为什么像考试这类基准测试并不适合用来衡量AI的进展。因为这些测试通常侧重评估的是具体任务中的技能与知识,而这些标准是基于对人类有意义,但对机器来说却毫无意义的假设。通过这些测试,我们无法真正衡量AI离AGI还有多远。

两种抽象:智能的核心技术
如果我们要严格地定义和衡量“智能”,我们需要考虑几个关键的概念。首先是静态技能与流体智力之间的区别。静态技能指的是依赖于一套预定程序来解决已知问题的能力;而流体智力则是在面对新问题时,能够根据需求灵活地合成新的解决方案。显然,这并不是一个非黑即白的对立关系,它们之间存在一个连续的光谱,可以在不同情境下交替发挥作用。
另一个需要探讨的概念是行动空间(scope of application)。这指的是一项技能能够应用的范围。对于任何技能,能否仅在与过去经验高度相似的场景中发挥作用,还是能在多变的、不同的情境中都表现出色,是衡量其智能水平的重要标准。
举个例子,当你学会了开车后,你应该能在任何城市驾驶,而不仅仅是局限于你学车的那个城市。你在圣何塞学会开车,搬到萨克拉门托后,仍然能够熟练地开车。这里的关键是,技能的应用并非局限于某一个固定的环境或场景,而是能够跨越不同情境,展示其灵活性与适应性。同样,这也是一个连续的概念,而非一个简单的“有或没有”的二元对立。
最后,我们还需要考虑信息效率(information efficiency)。掌握一项特定技能时,我们需要多少信息、数据或者训练才能做到?信息效率越高,智能水平越强。这个概念至关重要,因为作为工程师,我们最终所构建的系统,反映了我们对智能的定义。我们如何定义和衡量智能,不仅仅是技术上的一个细节,它实际上影响了我们对认知的理解,塑造了我们提出问题的方式,最终也决定了我们得到的答案。衡量标准本身,就是驱动我们不断迈向目标的反馈信号。
几十年来,AI的研究一直围绕着任务型技能展开,因为这是我们对智能的传统理解。然而,这种定义最终只会带来自动化,也就是今天我们所拥有的系统。我们所追求的,真正的目标是能够自主创新的AI。我们不满足于自动化已知任务,而是希望AI能帮助人类应对最复杂、最具挑战的问题,推动科学进步的速度,这才是AGI的真正意义。为了实现这一点,我们需要新的目标,新的视角,需要瞄准流体智力,那种适应与创造的能力。
对于AGI的定义,如果它仅仅带来自动化,提升了生产力,固然是一个巨大的进步,但也可能引发失业等社会问题。相反,如果我们能追求那种具有创造力和创新力的智能,它将开启一个全新的纪元,推动发明与科学的加速发展。真正的进步,只有在衡量我们真正关心的东西时才能实现。所以,我们迫切需要一个更高效的目标和反馈机制。那么,这个新的标准应该是什么?
为了更好地衡量AI系统的智能,我提出了ARC-AGI基准测试。2019年,我发布了第一个版本ARC-1。它像是为机器与人类设计的智商测试。ARC-1包含了1000个独特的任务,这意味着你无法通过死记硬背来应对这些任务;你必须运用通用智能,而非单纯依赖记忆中的知识,来即时解决每个任务。当然,解决任何问题总是需要一些知识。在大多数基准测试中,所需的知识偏差通常是隐含的。而在ARC中,我们将其明确化。

工程领域中有一个常见的现象叫“捷径法则”(Goodhart’s Law):当你过度关注某个单一的成功指标时,可能最终会实现这个目标,但代价是忽视了这个指标之外的其他重要因素。你可能射中了靶子,却偏离了靶心。这样的例子在Kaggle等平台上屡见不鲜。
比如奈飞大奖(Netflix Prize),获奖的系统虽然精准地预测了用户的喜好,但由于其过于复杂,最终无法在生产环境中有效部署,结果变成了无用功。在AI领域,国际象棋也有类似的案例。20世纪70年代,AI界开始开发下棋程序,最初的目的是希望通过这一过程揭示人类智能的奥秘。几乎三十年后,“深蓝”击败了世界冠军卡斯帕罗夫,达成了目标,但在这一过程中,我们对智能的本质几乎没有得到太多启发。我们完成了任务,却偏离了初衷。所有ARC任务都基于一套“核心知识先验”构建,这些先验知识涉及基本的物体识别、物理常识、基础几何、拓扑以及计数等概念,这些是任何一个四岁孩子都会掌握的知识。实际上,解决ARC任务所需的知识量非常小,并且是极其通用的,你几乎不需要为这些任务做任何准备。ARC的独特之处在于,它无法通过简单的记忆技巧来破解,真正考察的是你展现流体智力的能力。
与之相对,几乎所有其他的基准测试都关注固定的、已知的任务,这些任务大多可以通过记忆或固定模式来完成。这使得ARC对人类来说相对容易,但对AI而言却是极大的挑战。当你看到一个孩子轻松解决这些问题,而最先进的AI系统却无能为力时,这便是一个显著的警示信号,告诉我们:我们可能错过了某些至关重要的视角,迫切需要新的思维方式。
ARC并不直接告诉我们一个系统是否达到了AGI的水平,它并非衡量AGI的终极工具。ARC的真正目的,是让研究者的注意力集中在我们认为是通向AGI道路上的关键瓶颈上。所以,ARC并不是最终的目标,解决ARC本身也并不是我们追求的终点。它更像是一支指向正确方向的箭,帮助我们突破传统的“预训练+规模扩展”的范式。
即便我们将现有基座模型的预训练规模扩大五万倍,它们在ARC测试中的表现依然接近零。由此我们可以得出结论:流体智力无法通过单纯的预训练规模扩展涌现出来。我们必须通过测试时适应性来展现真正的流体智力。更重要的是,当测试时适应性在去年取得突破时,ARC便成了唯一一个能够清晰地反映这种深刻转变的基准。其他基准测试早已饱和,无法区分真正的智力进步与简单的规模扩展。
现在,当你看到这张图可能会问:ARC-1是不是也已经达到了饱和点?这是否意味着我们已经拥有了人类水平的AI?其实答案是否定的。ARC-1仅是一个二元测试,它展现的不过是流体智力的一个简化版本。因此,它只能给出两种可能的结果:要么系统无法展现流体智力,得分几乎为零,像基座模型一样;要么系统具备一定的流体智力,得分将迅速跃升至一个很高的水平,比如OpenAI的O3模型。当然,在座的各位可能会在这项测试中获得接近满分的成绩。因此,ARC-1的饱和点实际上远远低于人类水平的流体智力。

现在,我们需要一个更加灵敏且高效的工具,它能提供更有价值的评估维度,并能更好地与人类智能进行对比。这个工具便是今年三月发布的ARC-AGI 2。如果说2019年的ARC-1主要挑战的是将模型视作静态推理工具的深度学习范式,那么今天的ARC-2则将目光聚焦于推理系统与测试时适应模式的挑战。虽然基准测试的格式并未改变,但它更加侧重于考察模型的组合泛化能力。
这些新任务虽然对人类而言依然相对简单,但它们的复杂度大大提升。因此,ARC-2并不像ARC-1那样可以通过暴力破解的方式轻易解决。具体来说,在ARC-1中,许多任务只需要快速扫一眼,你就能立刻得出答案,无需深思熟虑。而ARC-2中的所有任务都要求一定程度的深度思考和分析。

然而,尽管它们变得更加复杂,对人类来说依旧是可解的。我们知道这一点,是因为我们在圣地亚哥对400人进行了为期数天的现场测试。值得注意的是,这些测试对象并非物理学博士,而是普通人,像网约车司机、加州大学圣地亚哥分校的学生、失业人员等,基本上是任何想赚点外快的人。
在ARC-2中,每个任务至少有两位测试者能够解答,平均每个任务会有七位测试者参与。这意味着,若由10名随机挑选的普通人组成的小组,通过多数投票,他们能够在ARC-2上获得满分。我们可以非常确信,这些任务对于未经特别训练的普通人来说是完全可解的。那么AI模型的表现如何?
如果你用像GPT-4.5或Llama系列这样的基座大模型进行测试,结果是显而易见的:得分为零。这些任务无法仅通过记忆技巧解决。接下来,如果你使用静态推理系统,也就是那些只能为任务生成单一推理链的系统,它们的得分也不会高,通常只有1%到2%,这与零分几乎没有区别。

这意味着,要想解答ARC-2中的任务,AI必须具备测试时适应性。所有得分显著高于零的系统都在使用TTL技术。即使如此,这些系统的表现仍然远远不如人类水平,与ARC-1相比,ARC-2能够对像O3这类TTL系统进行更为细致的评估。经过这种评估,O3和类似系统的表现依然未能达到人类水平。
在我看来,只要我们仍然能够设计出一些普通人轻松解决,而AI无论投入多少算力都无法突破的任务,我们就不能说已经达成了AGI。真正的转折点在于,当设计这些任务变得越来越困难,AI开始展现出足够的灵活性与适应能力时,那时我们才真正接近了AGI的实现。显然,我们距离那一天还有相当一段距离。
需要明确的是,我并不认为ARC-2是最终的测试,我们不会在这里止步。事实上,我们已经开始着手研发ARC-AGI 3,它将彻底摆脱ARC-1和ARC-2的输入-输出格式。在ARC-3中,我们将评估的是智能体,重点考察它在全新环境中的探索能力、互动学习、目标设定及自主实现目标的能力。在这种设定下,AI将被置于一个完全陌生的环境中,它无法预知控件的功能、目标是什么、甚至连游戏规则都不知道。它必须迅速弄清楚这一切,甚至首先需要搞明白自己在这个新的环境中应该做什么。

就像在ARC-1和ARC-2中一样,每个任务将是独一无二的,并基于核心知识先验。我们将面对数百或数千个这样的交互式推理任务。在ARC-3的设计中,效率将是至关重要的。评分标准不仅仅是看模型是否能够解决任务,更重要的是它解决任务的效率。我们将对模型能够采取的行动数量设定严格的限制,目标是让模型的效率达到人类水平。我们计划在2026年初发布这一项目,而在下个月,也就是7月,我们将发布开发者预览版,供大家开始体验。
那么,解决ARC-2需要什么?我们今天离它的解决还有一段距离,而离解决ARC-3就更远了。也许在未来,我们可以突破ARC-4,并最终实现AGI。但我们缺少的是什么?我曾经说过,智能是高效运用过往经验,以应对未来的变化与挑战。然而,如果你面对的未来与过去完全不同,与你的经验毫无联系,那么无论你的智能有多高,你也将无法理解它。
关键在于:没有任何事物是真正全新的。你所处的宇宙,实际上是由许多相似的事物构成的。例如,一棵树和另一棵树之间有许多相似之处,它们与神经元也有着某种相似性。电磁学与流体动力学之间存在相似性,甚至引力和流体动力学也有某些相似的特征。我们生活在一个充满同构现象的世界中。我称之为“万花筒假说”。虽然我们感知的世界看起来无穷无尽、复杂多变,但构成这一切的“意义原子”其实数量有限。你周围的一切,实际上都是这些有限原子的不同组合和重组。

智能,是从你的经验中挖掘出那些可以在不同情境和任务中反复使用的“意义原子”的能力。这是一个关于识别不变性与结构的过程,找出那些在不同情境中似乎不断重复的原则。这些构建模块,或者我们可以称之为“原子”,便是抽象。每当你面对新情况时,你都会通过重组已有的抽象概念来理解它,并根据当前的情境构建出一个全新的模型。
要实现智能,关键有两个环节。首先是抽象获取:你希望能够高效地从过往经验或数据中提取出可重复使用的抽象概念。其次是即时重组:你希望能够高效地挑选并重组这些模块,将它们组合成一个适应当前情境的全新模型。
这里对效率的要求至关重要。你有多聪明,不仅取决于你能做什么,更取决于你如何高效地从实际经验中提炼出有价值的抽象概念,并如何高效地重组它们以应对全新的情况。如果你需要数千个小时才能掌握一项简单技能,那你不能算作聪明;同样地,如果你必须枚举所有可能的棋盘走法才能找到最佳策略,那也无法称之为聪明。所以,智能不仅仅体现在高超的技能上,更体现在获取和应用这些技能的效率上,包括数据效率和计算效率。
因此,你可以理解,为什么单纯地将AI模型做得更大、喂给它们更多的数据,并不能自动实现AGI,我们仍然缺少一些重要的东西。
首先,这些模型缺乏即时重组的能力。它们虽然在训练过程中学到了很多有用的抽象概念,但在测试时却是静态的。你只能依赖它们去应用那些预先学到的、固化的模式。这个问题非常关键,而“测试时适应”正是解决这一问题的关键技术。TTA为AI系统提供了即时重组的能力,这是向AGI迈进的一大步,但这并不是唯一的问题,重组能力并不是唯一缺失的环节。
另一个问题是,这些模型的效率依然低得惊人。例如,梯度下降法需要海量数据才能从中提炼出简单的抽象概念,这比人类要多出三到四个数量级。再看重组效率,即便是最先进的技术,也需要消耗数千美元的计算资源,才能在人类水平上完成ARC-I的解题任务,而这远不能扩展到ARC-II。根本问题在于,深度学习模型缺乏组合泛化能力,而这恰恰是ARC-II试图衡量的。
为什么会出现这种情况?抽象,不止一种,这个概念至关重要。之前我提到,智能是从数据中提取并重组抽象概念。但实际上,抽象可以分为两种类型:第一类抽象和第二类抽象。它们相似,但又彼此镜像。两者都通过消除实例的细节,将多个实例归纳为一个通用模板。你观察不同事物,进行比较,去除掉那些无关紧要的细节,剩下的便是抽象。

这两类抽象之间的关键区别在于,一种在连续域中运作,而另一种则在离散域中运作。第一类,或称“以价值为中心”的抽象,是通过连续的距离函数来对事物进行比较。它是感知、模式识别、直觉以及现代机器学习的核心所在。第二类,或称“以程序为中心”的抽象,是关于比较离散的程序,也就是图。你不是试图计算它们之间的距离,而是在寻找精确的结构匹配,比如精确同构和子图同构。这类抽象是人类推理的基础,也是软件工程师在重构代码时所做的工作。
当软件工程师谈论“抽象”时,实际上他们指的就是第二类抽象。因此,可以说存在两种由类比驱动的抽象形式:价值类比和程序类比。所有的认知活动都来源于这两种抽象形式的结合。你可以通过左右脑的比喻来理解这个过程:一半大脑负责感知、直觉和模式识别,而另一半则负责推理、规划和严谨的逻辑。
Transformer模型擅长第一类抽象,能够有效处理与感知、直觉和模式识别相关的任务。从某种意义上说,Transformer是AI领域的一大突破,但它们仍然不适合处理第二类任务。这也是为什么,用这种类型的模型来执行非常简单的第二类任务(例如对列表排序,或进行加法运算)会显得异常困难。
我们该如何获得第二类能力?即你必须利用离散程序搜索,而不仅仅依赖于通过梯度下降学习到的连续插值空间。搜索机制解锁了超越单纯自动化的创造和发明的潜力。如今,所有已知具备创造或发明能力的AI系统,都依赖于离散搜索。
早在90年代,我们就已经开始使用大规模搜索来设计新型天线。你也可以把AlphaGo的第37步棋看作是离散搜索的成果。最近,DeepMind的AlphaDev系统也是一个例子,它同样依赖于离散搜索。因此,深度学习本身并不会“发明”,但通过搜索机制,我们能够实现这一目标。
什么是离散程序搜索?本质上,它是在由领域特定语言(DSL)的算子组成的图空间中进行的组合搜索。为了更好地理解这一点,你可以将程序合成与我们熟悉的机器学习过程进行对比。在机器学习中,你的模型是一个可微分的、参数化的函数,可以想象成一条光滑的曲线。而在程序合成中,模型则是一个离散的图,它由某种编程语言的符号算子构成。在机器学习中,创建模型的学习引擎是梯度下降,它的计算效率非常高。
梯度下降法可以让你快速有效地找到一个适合数据的模型。然而,在程序合成中,学习引擎则是搜索,尤其是组合搜索,但它的计算效率远低于梯度下降。在机器学习中,你面临的主要难题是数据密度。为了拟合一个模型,你需要密集地对数据流形进行采样,这意味着你需要大量的数据。
但程序合成完全不同。程序合成的数据效率极高,你只需两三个样本就能拟合出一个程序,然而,为了找到这个程序,你必须筛选出海量的候选程序。随着问题的复杂性增加,搜索空间的规模会呈现指数级增长,导致组合爆炸。因此,组合爆炸成为你必须面对的挑战。
我曾提到,智能是两种抽象形式的结合:第一类和第二类抽象。我深信,如果仅仅专注于其中的任何一种,我们都无法走得太远。要想真正释放这两种抽象的潜力,我们必须将它们结合起来。这正是人类智能的精髓,也是我们与机器的根本不同之处。我们能够将感知、直觉与清晰的、步进式推理相结合,这种能力贯穿我们所有的思维与行动。
举个例子:下棋时,当你在脑海中逐步推演可能的走法时,你正是在运用第二类思维。当然,你并不会考虑每一种可能的走法,因为可能性太多。你通常只会考虑几个选项,比如“动马”还是“动后”。你是通过直觉,通过对棋盘上模式的识别来筛选这些选项。这种能力很大程度上源于经验的积累。你从过往经验中提取模式,这个过程非常依赖第一类思维。所以,第一类思维通过直觉为第二类思维的计算提供了指引,使得复杂的计算变得可能。
第一类和第二类思维是如何相互融合的?关键在于,第二类思维的核心技术是在程序空间内进行离散搜索,而其挑战则是组合爆炸。与此同时,第一类思维的核心技术是曲线拟合和插值。你通过获取大量数据,并将其嵌入某个插值流形中,从而能够对目标空间进行快速但近似的判断。

核心的思想是:利用这些快速但近似的判断来对抗组合爆炸,从而使得程序搜索成为可能。你可以用一个简单的类比来理解:绘制地图。你面对的是一个由离散对象和离散关系组成的空间,通常需要进行组合搜索,像是在地铁系统中规划路线。然后,你将这些对象嵌入到一个潜在的空间中。这使得你能够通过连续的距离函数,对离散的关系进行快速而近似的判断,从而在搜索过程中有效地控制组合爆炸的规模。这便是我们目前正在研究的系统的完整蓝图。
从程序员到自适应智能体的演变
未来的AI将不再仅仅依赖固定的模式,而更像是一个程序员,通过编写软件来应对全新的任务。当面对新的挑战时,这个“程序员”般的元学习器(Meta-Learner)将动态地为当前任务合成一个定制化的程序或模型。这个程序将结合解决第一类思维子问题(如感知)的深度学习模块,以及应对第二类思维子问题的算法模块。这些模型将通过一个离散程序搜索系统来组装,而这个系统的搜索过程则由基于深度学习的对程序空间结构的直觉来指导。

这个搜索过程并非从零开始,而是利用一个全球共享的库,该库由可复用构建块和抽象概念构成,且会随着学习任务的进展而不断演化。每当新问题出现,系统会从这个库中搜寻相关构建块,利用这些已有的构建块快速组装解决方案。每当你解决一个新任务、创造出新的构建块时,这些构建块会被上传到这个共享库,供其他任务使用。就像软件工程师会将自己开发的实用库上传到GitHub,让更多人复用一样。
我们的最终目标是拥有一个能够在面对全新情况时,迅速利用其庞大的抽象库来组装出有效模型的AI。这一过程与人类程序员使用现有工具(例如库)来快速创建软件以解决新问题的方式极为相似。通过不断扩展抽象库并提升对程序空间结构的理解,这样的AI会自我完善并逐渐接近解决更复杂问题的能力。
这项系统性研究正由我们位于印度的新实验室进行。设立这个实验室的原因在于,我们深信,要加速科学进步,AI必须具备独立发明与发现的能力。我们需要的不仅仅是能在现有知识体系内工作的AI,而是能够拓展知识边界、开创新领域的AI。
我们坚信,这种新型AI将成为推动科学进步的关键。深度学习的确擅长于自动化,它拥有非常强大的能力,但科学发现的真正驱动力却远不止于此。我们在印度实验室的方法,就是将深度学习引导的程序搜索结合起来,构建一个“程序员”般的元学习器,能够自主创建程序解决全新问题。
为检验我们在这一领域的进展,第一个里程碑将是利用一个对ARC任务毫无预设知识的系统来完成这些任务。最终,我们希望通过这套系统来赋能科学家,帮助加速科学探索的步伐。
(文:硅星GenAI)