
邮箱|damoxingjidongzu@pingwest.com
2018 年,我曾在《深度学习》一书中,讲述了人工智能从逻辑运算模型向类脑计算模型转变的历程。回想 20 世纪 80 年代深度学习算法刚被发明时,计算机性能仅及今日的百万分之一。那时的我们无法预知,当这些算法随着规模扩大和数据增加会具备怎样的能力。
到 21 世纪 10 年代,深度学习在图像识别、语音识别和语言翻译等人工智能经典难题上取得的突破令人震撼。更让人惊叹的是深度学习与强化学习的完美结合。从 1992 年 TD-Gammon 在双陆棋比赛中达到顶尖水平,到 2017 年 AlphaGo 击败围棋世界冠军,这一系列成就不禁让我们思考:当人工智能开始在人类擅长的领域胜出时,这将给我们的未来带来什么样的影响?
自从 OpenAI 于 2022 年 11 月推出 ChatGPT 以来,大语言模型的突飞猛进让世界再次震惊。人们对它的反应可谓喜忧参半:一方面为它能快速生成流畅文本而着迷,另一方面又担忧它对就业前景和未来发展的影响。
语言作为人类最根本的能力,一直是我们判断智力水平的关键标准。如今,人工智能的快速发展引发了一些人对超级智能突破的担忧,认为这可能危及人类的生存。比尔·盖茨、埃隆·马斯克乃至教皇方济各等知名人士都对此发出警示。
一点是毋庸置疑的—尽管 ChatGPT 不是人类,但大语言模型在处理和提取海量文本数据方面已经超越了人类的能力。这种仿佛来自异世界的“造访”,在学界引发了一场争议:大语言模型是否真正理解它们所产生的内容?我们要如何验证一个系统是否真正具备理解能力?而对人类的理解过程本身,我们又了解多少?


你在考校大模型?其实它在反向“试探”你的智能
众所周知,图灵测试是检验人工智能模拟人类反应能力的经典方法, 而目前有趣的一点是,在实际人与大语言模型交互过程中,大语言模型似乎在进行一种更为微妙的反向图灵测试 ,通过映射我们的反应来检验对话者的智能水平和提示质量。这具体表现为:
对话者的思维水平越高,提供的提示越有深度,大语言模型就能展现出越高的智能表现。当对话者表达强烈观点时,模型也会相应地展现出更大的互动热情。
这种映射现象可以理解为启动效应与语言能力的协同作用。这一现象并不能说明大语言模型具备与人类相同的智能或意识,但确实展示了它在模仿人类个性特征方面的卓越能力。
大语言模型在映射用户需求和智慧时,可能就像《哈利·波特》中的厄里斯魔镜 [Mirror of Erised(desire)的倒写 ]。这面魔镜“只能映照出观看者内心最深切、最渴望的愿望,仅此而已。然而,它既不能赋予知识,也不能揭示真相。人们可能会在镜前虚度光阴,或是被镜中景象迷惑,甚至因无法分辨这些景象的真实性与可能性而陷入疯狂。”

通用人工智能一直是人工智能领域追求的终极目标。有趣的是,这种通用能力正在大语言模型中逐步显现,但其实现形式与早期人工智能研究者的设想有所不同。大语言模型不仅展现出在各类语言任务中的多面性,还具备编程等跨领域能力。
特别值得注意的是,这些模型表现出了超乎预期的社交智能。镜像假说为我们提供了一个全新的思考角度:通用智能是否首先源于人类的社交互动能力,而语言能力是在进化过程中发展出来的社交强化工具?这促使我们需要重新审视人类“通用智能”的本质和起源。这种观点可能会对我们理解智能的本质带来革命性的改变。
人类“智能”的标准该重写了
2020 年 12 月 1 日,加州大学圣迭戈分校认知科学系举办了一场主题为“ChatGPT 真的理解语言吗?”的教师辩论会,现场座无虚席。
反方辩手首先提出了“中文屋”的变体:一位哲学家在房间内,有人从门缝递进写有中文的纸条,这位哲学家按照既定算法处理后将回应递回门外。那么,这位哲学家是否真正理解了中文?这个论证引发了诸多质疑。
在辩论中,案例被改编为“匈牙利语屋”,哲学家则被替换为大语言模型,从而推论出大语言模型并不理解匈牙利语。然而,如果我们把“匈牙利语屋”换成“匈牙利大脑”,把哲学家换成物理定律,同样的论证逻辑依然成立。至此,辩论的水平开始走低。
在我看来,这就像一杯水,反方认为它是半空的,正方认为它是半满的,真相应该介于两者之间。在随后的问答环节中,我提出语言学家普遍认为语言的表达能力源于语法,而在语法生成能力方面,大语言模型实际上比多数人更为出色。对此,反方认为语法问题并非核心所在。值得注意的是,随着技术的不断进步,人们对人工智能的评判标准也在不断提高。
关于大语言模型是否具有智能的讨论,最终取决于我们如何定义“智能”。
大语言模型 LaMDA 通过了阿尔卡斯设计的心智理论测试,而心智理论被认为是自我意识的重要标志之一。不过,也有不少人对此持谨慎怀疑态度。人类往往会低估其他动物的智能,仅仅因为它们无法与我们进行语言交流。这种消极偏见恰好与另一种偏见形成呼应:我们倾向于对能与我们交谈的个体产生积极偏见,即便它们的实际智能水平可能并不高。
这不禁让人思考:我们是否具备足够的智慧来判断智能?大语言模型问世仅有短短数年,现在就推断它们或其后代可能达到怎样的智能水平还为时尚早。就像会说话的狗最令人称奇的是它能说话这一点本身,而非它所说内容的智慧程度或真实性。大语言模型即便在不够准确的情况下也会做出自信满满的回应。如果我们将评判标准从理想化的人类转向普通人,或许能得到更切实的比较结果。
专家们对大语言模型智能的认知分歧,凸显出我们基于自然智能的传统认知框架已难以适应当前形势。大语言模型的出现为我们提供了一个重要契机,促使我们突破固有思维模式,超越 19 世纪心理学遗留下来的过时概念。我们需要重新审视并深化对“智能”、“理解”、“伦理”以及“人工”等核心概念的认识。
人类的智能显然不仅限于语言能力;我们可能在某些领域与大语言模型拥有共同的智能特征,但在其他方面则存在本质差异。以创造力为例,它是自然智能的典型特征,而大语言模型也确实展现出了创造性思维的潜质。在实际对话中,如果否认大语言模型具备理解人类意图的能力,那么它生成的许多文本内容就难以得到合理解释。这使我们必须对“意图”这一概念进行更深入的探讨。这一概念源自心智理论,而心智理论本身也值得我们进行更细致的研究和重新思考。
问题的关键在于,对于大脑这样一个复杂系统,存在着无数相互作用的神经元和内部状态,不同的实验探测了不同的大脑区域,实际上每个实验研究的都是不同类型的“注意力”。对于大脑这样的复杂动力系统,很难用“注意力”和“意识”这样的概念来进行准确定义。
语言赋予人类独特能力,但词语本身具有不稳定性,这种不稳定性恰恰是它们力量的源泉。因此,我们需要更坚实的基础来构建新的概念框架。
我们正处在一个前所未有的历史机遇期,这与 17 世纪物理学变革时期极为相似。当时,“力”、“质量”和“能量”等概念经过数学形式化处理,从模糊的术语转变为精确的可测量指标,由此奠定了现代物理学的基础。在研究大语言模型的过程中,我们很可能会发现关于智能本质的新原理,就像 20 世纪物理学家揭示物理世界的基本原理一样。正如量子力学在首次提出时违背人们的直觉认知一样,当智能的基本原理被揭示时,可能也会呈现出违反常理的特性。
自然是否在高度进化的灵长类大脑中实现了一个类似于大语言模型的系统?通过研究大语言模型展现的语言处理能力,我们可能会发现一些关于语言智能的基本原理,这些原理或许能够推广到社会智能、机械智能等其他智能形式。与生物进化相比,大语言模型的发展速度要快得多。一旦相关技术基础确立,其性能就会在持续改进中不断提升。
这项技术最为突出的特点在于:在探索其发展的过程中,我们可能会深入理解人类智能的本质。
那么,在这样的理念下,我们具体是怎么做的呢?
“我演算故我在”:AI的新本体论
“我思故我在”是笛卡儿哲学的核心命题。这句话常被译为“我思考,所以我存在”,但更精确的翻译可能是“我正在思考,因此,我必定存在”,或简言之,“思考即存在”。
“思维”是一个难以准确界定的模糊概念。对某些人而言,思维是一连串的逻辑推理;对另一些人来说,它更像是念头的流动;而对许多人而言,它是漂浮在“感受之海”中的内心对话。但这些描述终究只是文字游戏。若要判断大语言模型在回答问题、创作诗歌或解决数学问题时是否真的在思考,我们需要对思维下一个明确的定义。然而,仅仅通过分析行为表现,恐怕还不足以解答这个根本性问题。
我曾在普林斯顿大学修过一门研究生哲学课程,整个学期都在探讨一个问题:“语言和思维,孰先孰后?”虽然进行了一个学期的深入讨论,我们却始终无法得出确定结论。对这个问题,主要存在两种观点。
语言先于思维(语言决定论):这一观点主要基于萨丕尔 – 沃尔夫假说,认为人类的思维和行为深受所使用语言的影响。在其强式表述中,该假说甚至认为语言完全决定思维:我们只能在语言允许的框架内思考。
思维先于语言(思维优先论):这种观点认为思维独立于语言而存在。支持者认为,人们在掌握表达语言之前就已经有了思维和想法。这种观点经常得到认知心理学和神经语言学的支持。我们可以从儿童在获得语言能力之前就能思考和解决问题,以及动物的认知能力等证据中看到这一点。
大多数学者认为语言与思维的关系并非单向决定,而是在复杂的互动过程中相互影响、彼此塑造。一方面,我们固然需要语言来交流和表达思想;另一方面,人类的认知能力也在不断影响语言的演化与发展。
进一步,思维本身具有多样性,并非所有思维活动都依赖语言。比如,视觉思维、空间思维和情感思维等形式的思维过程,往往可以不依靠语言就能完成。
思维作为一个认知过程,一直是哲学家们探讨的重要议题。它涉及在心智层面对信息的处理,包括概念形成、问题解决、决策制定和反思等活动。思维活动的范围极其广泛,从简单(如记忆一串电话号码)到复杂(如设计精密机械),再到案例 GPT 5.2 中提到的众多认知活动。
2023 年,著名语言学家诺姆·乔姆斯基就大语言模型无法实现人类真实思维的问题,提出了一个深刻的见解。
他通过一个简单的物理现象进行了阐释。当我们手持苹果并松手时,会产生三个层次的认知:第一层是现象描述—“苹果掉下来了”;第二层是预测推断—“如果松手,苹果必然下落”。这两种认知虽然都有其价值和准确性,但还不构成真正的思维活动。真正的思维在于第三层:因果解释。它不仅包含对现象的描述和预测,更涉及普遍性的反事实推理(“一切类似物体都会下落”),以及本质性的原因分析(“基于重力作用”或“源于时空曲率”)。用反事实条件来表述就是:“若无重力作用,则苹果不会下落。”这种融合了观察、推理和本质认知的过程,才是人类独特的思维方式。
这段对思维某些特征的描述清晰而有说服力。不过,我们应当通过实验数据来检验这一批判性观点。事实上,正如案例 GPT 5.3的研究结果显示,ChatGPT 已经能成功应对乔姆斯基提出的思维测试。然而,无论如何定义思维,仅凭语言都难以对其进行完整描述。考虑到思维研究的重要性,这一领域显然不应仅局限于语言学的视角。
当前关于大语言模型是否真正“理解”其输出内容的争论,让我联想到一个世纪前关于“生命本质”的讨论:生命体与非生命物质的本质区别是什么?当时的生命力论者认为,生命依赖于一种无形的“生命力”,这种力量存在于生物体内而非无生命物质中。然而,这种抽象的辩论并未推动科学进步。直到 DNA(脱氧核糖核酸)双螺旋结构的发现,才带来了生物学的革命性突破。
如今围绕“智能”和“理解”的争论,与当年关于“生命”的辩论何其相似。AGI 这一概念,某种程度上就像昔日的“生命力”说。可以预见,机器学习的进步最终可能会催生一个全新的概念框架,就像 DNA 结构之于生物学一样,为人工智能领域带来根本性的突破,现在是重新审视旧有概念的最佳时机。
文/特伦斯·谢诺夫斯基 摘自新书《大语言模型》,2025.7
(文:硅星GenAI)