2019年:苦涩的教训(The Bitter Lesson)
过去70年人工智能研究的最大教训是:基于高算力的通用方法最终会大获全胜,且优势显著。根本原因在于摩尔定律(计算单位成本持续指数级下降)。AI研究长期误将可用算力视为固定值,试图通过引入人类领域知识提升性能,但长期来看,算力的指数级增长才是关键。短期依赖人类知识的改进会阻碍长期进步,而搜索(search)与学习(learning)是两种能随算力扩展的通用方法。
核心观点总结
算力驱动的通用方法胜过专家知识
历史案例(国际象棋、围棋、语音识别、计算机视觉)表明,依赖人类知识的专家系统(如规则引擎、特征工程)在初期有效,但最终被基于大规模搜索、深度学习和统计方法的算力驱动方案超越。
例如,1997年击败国际象棋冠军的Deep Blue依赖暴力搜索,而非人类棋谱知识;AlphaGo则通过自我对弈(self play),能进行10^170局对局,学习价值函数,结合深度强化学习实现突破。
搜索与学习是无限scaling 的核心技术
搜索(如蒙特卡洛树搜索)和学习(如监督学习、强化学习)是两类能无限scaling的通用方法。它们通过利用摩尔定律带来的算力红利,逐步替代人类预设的复杂规则。
深度学习(如Transformer模型)进一步将统计建模与大规模算力结合,成为当前语音识别、自然语言处理的基石。
人类中心论的陷阱
研究者倾向于将人类认知模式(如空间理解、物体概念)嵌入系统,但人类心智的复杂性远超简单建模,导致方法僵化且难以扩展。不应执着于构建简化模型,而应专注于开发能自主发现复杂模式的元方法。关键在于设计有效的近似搜索机制,而非预先编码人类经验。
例如,早期计算机视觉依赖边缘检测、SIFT特征等人工设计,而现代深度学习仅通过卷积和不变性假设实现更优性能。
2024年:AI新路径(New path for AI)
当前深度学习范式的核心问题——为了强大的非线性能力,我们放弃了更本质的“持续学习”能力,这是一场“与魔鬼的交易”。
Sutton认为,当前AI领域,包括像ChatGPT这样的模型,都陷入了一种“短暂学习”(Transient Learning)的模式:在工厂里用海量数据完成训练,然后“冻结”模型推向世界,它在实际使用中并不会再学习。这与真正的智能相去甚远。
以下是访谈内容的精华总结,enjoy~
一、 强化学习的起源:填补AI“目标导向”的失落环节
很多人好奇,Sutton为何会开创强化学习这个领域。他的回答直指人工智能研究早期的一个核心缺失。
核心兴趣:Sutton从一开始就对那些能够与世界互动、并从互动中学习以达成某个目标的系统最感兴趣。
早期的缺失:他观察到,无论是早期的控制论、模式识别还是监督学习,都缺少这个“目标导向”的要素。它们更像是在被动地识别模式,而不是主动地为了一个目标去行动。
RL的诞生:强化学习这个领域的创立,正是为了系统性地研究这种目标导向的、通过试错进行学习的智能形式,填补当时AI研究的空白。
历史的“倒退”:Sutton甚至认为,AI研究在历史上发生过一种“倒退”。早期研究者(如1950年代)曾探索过试错学习,但后来的研究为了追求更清晰、更简单的数学模型,逐渐退回到了监督学习和模式识别的简化问题上,把更复杂的互动学习问题“遗忘”了。
二、 深度学习的“魔鬼交易”:我们放弃了什么?
核心权衡:Sutton指出,AI领域做出了一个重大的权衡——在1986年反向传播算法出现后,我们获得了学习“非线性”关系的能力(深度学习),但这几乎是以完全放弃“持续学习”(Continuous Learning)能力为代价的。
短暂学习 vs 持续学习:他创造了“短暂学习”(Transient Learning)这个词来形容当今深度学习的模式。即:在一个特殊的“训练阶段”完成后,学习就永远停止了。而真正的智能,比如人类,是持续不断地从新经验中学习和适应的。ChatGPT在与你对话时,并不会学习新知识,就是最典型的例子。
路径依赖与群体思维:为什么会这样?因为非线性学习带来的成果(如语言模型的惊人表现)太强大、太诱人了。整个领域为了这些成果,欣然接受了放弃持续学习的代价,并围绕“短暂学习”构建了所有的技术、技巧和基准测试(如回放缓冲区、ImageNet、Atari游戏基准),这形成了一种强大的“群体思维”。
路灯下找钥匙:他用了一个经典比喻:我们就像那个只在路灯下找钥匙的人,因为那里是唯一能看清的地方,尽管钥匙很可能丢在了别处。整个领域都涌向了“短暂学习”这盏路灯,而忽略了“持续学习”这片更广阔但更黑暗的区域。
三、 AI前进的瓶颈:真正的“表征学习”尚未解决
Sutton进一步指出,这种“魔鬼交易”导致了一个更深层次的问题至今悬而未决。
反向传播不是终点:许多人认为反向传播解决了特征学习或表征学习的问题。Sutton对此持强烈反对意见。他认为,反向传播找到的特征仅仅是为了解决当前数据集上的特定问题,它并没有学会一种能够良好泛化、让智能体在未来能快速学习新事物的“通用表征”。
40年的失望:Sutton半开玩笑地抱怨道:“我给了他们40年的时间来解决这个问题,他们没做到,现在我不得不自己动手了。”他认为,如何在线地、持续地学习到好的世界表征,是当前强化学习乃至整个人工智能领域前进的最大瓶颈。
四、“奖励假设”与心智的未来:一个数字如何涌现出复杂人生?
奖励假设 (Reward Hypothesis):他坚信,所有形式的目标寻求,最终都可以被数学化地理解为最大化一个单一的、标量的奖励信号。
从简单到抽象的涌现:这听起来可能有些反直觉和“不舒服”。但Sutton指出,正是从最大化这个简单的、可能是由下丘脑计算的原始奖励信号(如快乐、痛苦、社会认同)中,涌现出了所有复杂、抽象的人生目标,比如“获得博士学位”、“组建家庭”、“成为一名成功的科学家”。AlphaGo从“获胜”这个单一目标中学会围棋的精妙概念,语言模型从“预测下一个词”中学会语法和世界知识,都是这个原理的体现。
对未来的预测:到 2030年,我们有25%的可能性会基本理解智能的原理(到2040年,可能性为50%)。这里的“理解”指的是,我们将知道如何构建一个能通过试错学习、建立世界模型、在多层次上规划并拥有良好表征的完整系统。
五、给所有研究者的建议:成为逆行者,并坚持记录
最后,给出了两条极具价值的研究建议:
坚持写研究笔记:这是他认为最重要的习惯。每天写下你的想法,挑战它们,发展它们。他说:“写下想法的价值,通常与你感觉它有多模糊、多混乱成正比。” 当你觉得脑子里有六个想法互相打架,乱到无法下笔时,那恰恰是把它写下来最能创造价值的时刻。
对热点保持中立:不要因为一个东西流行就去做,也不要因其冷门而避开。流行的东西更容易发表,但价值可能更低,因为所有人都在做。你应该选择你真正认为重要且可能富有成果的问题,哪怕这意味着要成为一个“逆行者”。
2025年:欢迎来到经验时代!(Welcome to the Era of Experience)
人类数据时代的黄昏:模仿的尽头是瓶颈
当前AI的巨大成功,尤其是LLM,建立在对海量人类数据的学习之上。它们能写诗、解题、诊断、写代码,展现了惊人的通用性。
然而,这条路正变得越来越窄:
数据已近枯竭:高质量的人类数据,无论是文本、代码还是专业知识,大部分要么已经被消耗殆尽,要么很快就会被用完。靠“喂”更多数据来提升性能的模式难以为继。
无法超越人类:模仿永远无法超越被模仿者。真正突破性的见解,如新科学定理、新技术,本质上不存在于现有的人类数据中。AI无法从我们已知的东西里,学到我们未知的东西。
进展明显放缓:单纯依赖监督学习的进展速度已经明显放缓,这预示着范式转移的必要性。
经验时代的黎明:通往超人类智能的新大陆
要突破瓶颈,AI需要一种全新的、能够自我再生的数据来源。唯一的答案就是智能体与环境交互产生的经验数据。
AlphaProof在数学奥赛上的成功就是例证。它在学习了人类数学家创建的10万个证明后,通过与证明系统持续互动,自主生成了数亿个新证明,最终发现了人类未曾想到的解题路径。
文章认为,“经验时代”的智能体将具备四大核心特征,彻底颠覆现有AI的局限:
1. 从“碎片交互”到“终身学习流”(Streams)
现状:当今的AI交互是短暂的、碎片化的。你问一个问题,它给一个回答,然后这段记忆几乎就被遗忘了,无法实现长期的适应和成长。
未来:经验时代的智能体将存在于一个持续的、不间断的经验流中,像人一样拥有“一生”的尺度。它能够为了数月甚至数年后的长远目标(如帮用户改善健康、学习一门语言、发现新材料)而行动,并根据过去的经验不断自我修正和改进。
2. 从“文本对话”到“真实世界行动”(Grounded Actions & Observations)
现状:LLM主要通过人类特权的文本通道与世界交互。
未来:智能体将拥有植根于环境的丰富行动和观察能力。它能像人一样操作电脑界面、调用API、运行代码、控制实验室的机械臂、读取传感器数据。它将成为一个能在数字世界甚至物理世界中自主探索、实验和行动的实体,而不仅仅是一个聊天机器人。
3. 从“人类偏好”到“基于现实的奖励”(Grounded Rewards)
现状:RLHF(基于人类反馈的强化学习)的奖励来自于人类的预先判断(这个回答好不好?)。这种奖励是主观的,且天花板就是人类评估者的认知水平。
未来:智能体的奖励将直接源自环境本身的、基于现实的信号。例如:
-
• 健康助手:奖励基于用户心率、睡眠时长的真实改善。 -
• 科研助手:奖励基于二氧化碳水平的实际下降,或新材料强度的模拟结果。 -
• 经济助手:奖励基于利润、销量的真实增长。
通过一个灵活的、可由用户引导的双层优化机制,AI可以将模糊的人类目标(“让我更健康”)转化为具体、可衡量的现实信号,从而在真实世界中实现有效优化,而不是猜测人类的喜好。
4. 从“模仿人脑”到“非人方式的规划与推理”(Grounded Planning & Reasoning)
现状:AI的“思维链”被设计为模仿人类的思考过程,这很可能不是最高效的计算方式,并且会继承人类思维固有的偏见和错误。
未来:智能体将建立世界模型(World Model),通过模拟自身行动在真实世界中可能产生的后果来进行规划。它将从经验中学习如何思考,可能发展出一种高效的、我们无法理解的“非人类”符号或计算方式。这种植根于现实的推理,能让它像科学发展史一样,通过实验和观察推翻错误的假设,发现新的物理规律,而不是成为现有知识的“回音室”。
三、 机遇与挑战并存的未来
“经验时代”的到来,意味着:
巨大的积极潜力:个性化助手能实现真正的长期陪伴和辅导;科学发现将以前所未有的速度被加速。
严峻的新挑战:
-
• 安全与对齐:能够自主行动并追求长期目标的AI,带来了更高的滥用风险,对信任和责任提出了更高要求。 -
• 可解释性:摆脱人类思维模式后,AI的行为可能更难被我们理解。 -
• 社会影响:智能体可能展现出以往被认为是人类专属的创新和解决问题的能力,对就业和社会结构产生深远影响。
经验本身也可能带来安全益处。一个能感知环境的AI,可以识别并适应环境变化(如硬件故障),甚至能识别其行为何时引发了人类的担忧或痛苦,并自我纠正,这为解决“对齐”问题提供了一条新思路。
2025年6月6日:智源开幕式-欢迎来到经验时代!
这个和文章发表的标题虽然一样,但内容不太一样,也值得一听,大家可以去看原视频播放
引言:
1947年,当人工智能甚至还不是一个学科时,图灵就曾预言:“我们需要一台能够从经验中学习的机器。”70多年后,我们正站在这个预言的门槛上。当前由GPT等模型定义的“人类数据时代”正触及天花板,AI的未来不在于模仿人类,而在于亲身“经验世界”。一场深刻的范式革命,正悄然拉开序幕。
这篇文章将探讨两个核心观点:
-
• 技术上,AI正从“人类数据时代”迈向“经验时代”。 -
• 社会上,我们面临着“中心化控制”与“去中心化合作”的根本性抉择。
一、 告别“投喂数据”:人类模仿的尽头
当前AI的辉煌,建立在一个简单的基础上:海量的人类数据。无论是文本、图像还是代码,AI都在学习模仿人类的产出。它们的目标是“预测下一个词”或“给图片打标签”,而不是真正地理解和操控世界。
这种模式的问题日益凸显:
-
• 数据已近枯竭:高质量的人类数据并非取之不尽。我们几乎已经将互联网上最有价值的数据“喂”给了模型,单纯靠增加数据量带来的性能提升已越来越小。 -
• 无法产生新知:模仿永远无法超越被模仿者。AI无法从我们已知的数据中,学到人类尚未发现的新定理、新技术或新思想。
简单说,我们不能指望一个“复读机”成为“思想家”。
二、 何为“经验”?AI学习的根本性转变
要让AI拥有真正的创造力和适应性,就必须进入“经验时代”。这意味着AI的学习方式将发生根本转变:不再依赖静态数据集,而是通过与世界的实时互动,在第一人称视角下持续获取经验。
这个“经验”并非哲学意义上的“意识”,而是更具体的东西:
主动探索,塑造经验:就像一个婴儿,不是被动地看图片,而是主动伸手去触摸、去探索玩具的功能。AI的行为本身决定了它将要获取什么数据。这种主动性至关重要。
高带宽的实时互动:想象一名足球运动员,他的感官在瞬间接收海量信息,并立即做出反应以实现目标。经验,就是智能体与世界之间高速流动的信息交换——输入感知,输出行为。
经验的动态进化:经验的价值是动态的。当两个AlphaGo对弈时,它们互相“喂招”,共同成长,彼此生成的“经验数据”也变得越来越复杂和有价值。AlphaGo的“神之一手”(第37手),正是源于这种人类棋谱中不存在的、自我博弈产生的“经验”。
总而言之,经验型思维的核心是:智能体对世界的所有认知,最终都建立在它与世界进行信号交换的经验之上。 知识本身,也是围绕经验建立的。AI的核心,应该是理解和控制自身的经验,特别是其奖励信号(reward vector)。
三、 AI进化三部曲:从模拟、模仿到实践
回顾AI的发展,我们可以清晰地看到三个阶段的演进:
-
• 模拟时代 (Simulation Era):以 AlphaGo 为代表。AI在围棋这样的封闭、有明确规则的模拟环境中学习经验,展现了经验驱动的巨大潜力。 -
• 人类数据时代 (Human Data Era):以 GPT 为代表。AI从海量人类数据中学习模仿,展现了强大的通用能力。 -
• 经验时代 (The Era of Experience):这是我们即将迈入的未来。AI将通过API、机器人等接口,与真实世界直接交互,在开放环境中获取经验。“行为式智能”正在悄然萌芽。
四、 一个更深的问题:所有AI都应有同一个目标吗?
当我们从技术转向社会层面,一个根本性问题浮出水面:在一个由无数智能体组成的社会里,大家是否应该被设定同一个目标?
从强化学习的视角看,答案是断然否定的。
每个智能体都有自己的奖励信号:在自然界,一只狐狸的“食物”(奖励),对一只兔子来说却是“威胁”。在人类社会,我们都关心健康、家庭,但具体目标千差万别。
差异是合作的基础,而非冲突的根源:现代经济之所以能高效运转,恰恰是因为人们有不同的目标和能力,从而产生了分工、交换和合作。强求所有人目标一致,反而会扼杀活力。
五、 人类的终极超能力:去中心化合作
这就引出了本文最核心的社会学观点:去中心化合作。
-
• 去中心化 (Decentralization):承认并尊重每个智能体都追求自己独立的目标。 -
• 合作 (Cooperation):不同目标的智能体,通过互动实现彼此的部分目标(如交易)。
“去中心化 + 合作”是人类的“超级能力”。我们比其他动物更善于合作,但同时,人类最大的失败——战争、腐败、欺诈——也源于合作的失败。
合作从不是自动发生的,它需要制度来惩罚作弊者、制衡掠夺者。这也意味着,中心化的权力(如法律)在初期可以保障合作。但当中心化权力变得僵化和专制时,它本身就会成为合作的阻碍。
六、 时代的核心张力:控制的恐惧 vs. 合作的信任
当前,我们正处于“去中心化合作”与“中心化控制”的巨大张力之中。这种张力在AI领域体现得淋漓尽致。
我们听到越来越多“控制AI”的呼声:暂停研究、限制能力、强制监管……这背后是典型的中心化控制逻辑,其根源是恐惧——对未知的恐惧,对失控的恐惧,一种“我们 vs. 它们”的二元对立思维。
我们必须警惕:控制AI的呼声,与控制人的呼声,在逻辑结构上是惊人地相似的。
我们面临的选择是:究竟是应该基于对少数作恶者的恐惧,而对所有AI(以及人类)施加全面的中心化控制?还是应该相信大多数智能体具备合作的潜力,并努力去建立一个促进合作、足够鲁棒的去中心化秩序?
(文:机器学习算法与自然语言处理)