-
-
• AI即操作系统:软件已进入3.0时代,LLM不再是工具,而是一个用自然语言编程的全新操作系统(OS) 。我们正处在这个新平台的“1960年代”,充满原始机遇。 -
• 产品即“钢铁侠战衣”:从一个能工作的Demo到可靠的产品存在巨大的 “网络到产品鸿沟”。未来十年,真正的金矿是构建 “部分自治” 产品——即增强人类的“钢铁侠战衣”,而非追求遥远的自主机器人。 -
• 为Agent重构基础设施:数字世界出现了全新的消费者——AI Agent。我们必须为它构建新的基础设施,例如 llms.txt
和机器可读的API文档,这是下一代技术栈的基石。 -
Andrej Karpathy在YC AI Startup School的最新分享,为所有AI产品经理和工程师提供了一个极其深刻且可操作的思维框架。他断言:“我认为现在是进入这个行业一个极其独特且有趣的时刻。” 为什么?因为软件的根基正在被重写。
本文将以其演讲幻灯片为纲,并融入完整演讲实录的全部细节,旨在成为一份真正信息无损的终极解码。
软件的新范式:Software 3.0正在吞噬一切
Karpathy的核心论点是: “软件在过去70年里没有发生根本性的变化,直到最近几年,它被连续颠覆了两次。” 这两次颠覆,将软件开发带入了全新的范式。
-
• Software 1.0:我们用Python/C++等语言编写的传统代码。这是我们所熟知的、由确定性指令构成的世界。 -
• Software 2.0:由数据训练出的神经网络权重。在这里,我们不再直接编写逻辑,而是通过 **“调整数据集”**并运行 **“优化器”**来生成程序的参数。它最初被看作是另一种分类器,但其本质是一种新的软件形态。 -
• Software 3.0:用自然语言(如英语) 作为指令的可编程大语言模型(LLM) 。过去的神经网络是“功能固定的计算机”(如图像分类器),而LLM是“可通过自然语言编程的通用计算机”。
与之前认为的简单迭代不同,Karpathy提出了一个更深刻的观点:这三种软件范式将长期共存,但Software 3.0正在“吞噬”1.0和2.0。这意味着, “巨量的软件将被重写”。
案例:特斯拉Autopilot的代码演进
Karpathy用他在特斯拉的亲身经历,生动地展示了这种“吞噬”过程。Autopilot的软件栈最初由大量的C++代码(Software 1.0)和一些神经网络(Software 2.0)构成。随着团队不断优化,他们发现:
-
• 神经网络不断膨胀:模型的能力越来越强,接管了越来越多原本由C++处理的复杂逻辑,例如,融合多个摄像头的图像、理解时序信息等。 -
• C++代码被不断删除:每当神经网络学会一项新技能,工程师就能删除掉一大片负责该功能的C++代码。
最终,Software 2.0(神经网络)在软件栈中“吞噬”了大量的Software 1.0(C++代码)。 这不是简单的模块替换,而是一场深刻的架构革命。
LLM的多重身份:Utility, Fab, 和 OS
Karpathy用三个精妙的类比,揭示了LLM在技术生态中的多重角色。
-
1. 像电力一样的Utility(公共事业) :LLM通过API提供智能,我们像用电一样按Token付费。当它宕机时,会引发全球性的 “智能停电”(Intelligence Brownout) 。
-
2. 像芯片厂一样的Fab(制造厂) :训练LLM需要巨大的资本投入、尖端技术和研发机密,这使得少数顶尖的LLM Lab如同芯片制造厂一样,具有中心化的特点。
-
3. 像1960年代的OS(操作系统) :这是最核心的类比。今天的LLM就像1960年代的大型机操作系统,昂贵、集中在云端,我们通过 “分时系统”(API调用) 来使用。其生态也呈现出少数闭源巨头(Windows/macOS)+一个开源替代(Linux) 的格局。
一个独特的现象是,LLM颠覆了技术的传统普及路径。过去的技术总是从军事/企业下放到消费者,而LLM反其道而行之,普通人最先享受到了最前沿的技术。
与“数字心智”共事:LLM的心理学剖析
Karpathy将LLM生动地描述为 “People Spirits”(人的心智模拟) ,它是一个 “随机模拟器(stochastic simulator)”,由一个 **“自回归Transformer”**驱动,其工作方式是“一个token接一个token地生成(chunk, chunk, chunk)”。这种机制赋予了它独特的“心理缺陷”。
超能力:像《雨人》一样过目不忘
LLM如同电影《雨人》里的主角,拥有近乎完美的百科全书式记忆。它能记住你看过的任何代码片段、读过的任何论文,甚至包括具体的Git commit SHA哈希值。
认知缺陷:一份必须正视的清单
-
• Jagged Intelligence(认知能力参差不齐) :它能解决复杂数学题,却可能无法判断9.11和9.9哪个更大。 -
• Anterograde Amnesia(短期失忆症) :源于其固定的上下文窗口,它就像 “一个患有短期失忆症的同事”。人类同事下班回家,睡觉时会巩固知识和经验,但LLM不会。这与电影 《记忆碎片》 和 《初恋50次》 主角的处境完全相同。 -
• 安全漏洞:极易受到提示注入(Prompt Injection) 和数据泄露等风险。
核心方法论:打造“钢铁侠战衣”,而非自主机器人
面对这样一个强大而有缺陷的“心智”,该如何构建产品?
警惕鸿沟:works.any()
vs works.all()
Karpathy分享了他2014年乘坐Waymo的经历,一次完美的零干预体验让他以为自动驾驶近在咫尺。然而十年过去,问题依旧。他总结道:
Demo的成功,只需要 works.any()
(任何一个场景能跑通就行)。而产品的成功,则需要 works.all()
(所有场景都必须可靠)。
这个从Demo到产品的巨大鸿沟,在软件Agent领域同样存在。
“钢铁侠战衣”:人机协作的终极形态
未来十年真正的机会,不是构建一个完全自主的“钢铁侠机器人”,而是打造一件增强人类能力的 “钢铁侠战衣”。
“部分自治”应用的设计原则
-
1. 优秀的上下文管理:自动为LLM注入相关文件、代码等信息。 -
2. 多模型调用编排:在后台智能调用不同模型完成复杂任务。 -
3. 应用专属的GUI:GUI是关键!Karpathy强调:“GUI利用了我们头脑中的视觉GPU……阅读文本费时费力,而看东西……就像一条通往大脑的高速公路。” -
4. 提供“自治滑块”(Autonomy Slider) :让用户可以动态调整AI的介入程度。 -
• Cursor:从 Tab
补全 ->Cmd+K
修改 ->Cmd+L
聊整个文件 ->Cmd+I
Agent模式。 -
• Perplexity:从 Search
->Research
->Deep Research
。
加速“生成-验证”循环
人机协作的本质,是一个 “生成-验证”(Generation-Verification) 的循环。我们的目标,就是无限地加速这个循环。
-
• 加速验证:好的GUI至关重要。特斯拉的仪表盘就是典范,它实时显示车辆“看到”的世界,将AI的“思考过程”可视化,让驾驶员能够理解AI的意图,从而建立信任并进行有效监督。 -
• 给AI套上“缰绳”(Keep the AI on a leash) :Karpathy坦言,他自己在进行AI辅助编码时, “总是害怕得到一个过大的diff”,因此他总是采用小步、增量的方式工作,避免一次性生成上千行代码的验证噩梦。“一次性给我1000行的diff对我来说没什么用,因为我才是最终的责任人。”
为AI编程:重构我们的数字基础设施
当人人都能用自然语言编程(Vibe Coding)时——这个由Karpathy的推文引发,并已拥有自己维基百科页面的潮流——新的瓶颈出现了。
Karpathy分享了他用AI快速构建应用MenuGen的经历,结果发现编码本身成了最简单的部分,而部署、认证、支付等DevOps环节,因为其UI和文档都是为人类专家设计的,对AI极不友好,反而耗费了大量时间。他愤怒地吐槽:“电脑告诉我该去哪个URL、点击哪个下拉菜单… 你是电脑,你为什么不自己做?What the hell?”
结论:数字世界出现了一个全新的消费者——AI Agent。
我们必须为它建设新的基础设施:
-
• llms.txt
:像robots.txt
一样,用简单的Markdown为AI Agent提供网站导航。
-
• Agent友好的文档:像Vercel那样,提供机器可读的文档,而不是像Clerk那样充满需要人类点击的指令。
-
• 上下文构建器(Context Builders) :像Gitingest和Cognition的工具,能将复杂的代码库预处理成LLM易于理解的格式。
结语:BUILD FOR AGENTS 🤖
Karpathy的演讲为我们指明了方向:少谈论遥远的AGI和华而不实的Demo,多关注部分自治、定制化的GUI和灵活的自治滑块。
未来十年,我们所有产品经理和工程师的核心任务,就是拥抱Software 3.0,在自己的产品中应用“钢铁侠”法则,并开始为AI Agent这个新物种,构建一个全新的、机器友好的数字世界。
(文:子非AI)