特斯拉前人工智能和自动驾驶主管:氛围编程


特斯拉前人工智能和自动驾驶主管演讲节选。

1. 软件的三个时代:从代码到提示词

Karpathy将软件的演进划分为三个阶段:

软件1.0 (Software 1.0): 经典代码。 这是我们熟悉的、由人类用Python、C++等编程语言编写的明确指令集。计算机完全按照这些指令执行。

软件2.0 (Software 2.0): 权重。 随着深度学习的兴起,软件的核心从“代码”变成了神经网络的“权重”。这些权重不是由人编写的,而是通过在大量数据上进行优化(训练)得到的。例如,一个图像分类器就是一个由权重构成的程序。

软件3.0 (Software 3.0): 提示词 (Prompts)。 这是最新的革命。LLM本身就像一个可编程的计算机,而它的“编程语言”就是自然语言(如英语)。我们通过编写提示词来“编程”LLM,让它完成复杂的任务。这标志着软件开发的又一次范式转移。

Karpathy用一个“软件版图”的比喻来形象说明:如果说软件1.0是GitHub上的所有代码,软件2.0是Hugging Face上的所有模型,那么软件3.0正在以前所未有的速度“吞噬”和重构前两者。

2. LLM作为新的计算平台:操作系统、电网还是芯片厂?

Karpathy探讨了LLM在当前生态中的角色,并提出了几种有趣的类比:

像操作系统 (Operating System): 这是他最倾向的类比。LLM就像一个新的操作系统(例如,1960年代的早期操作系统)。

LLM是CPU:处理核心逻辑。

上下文窗口 (Context Window)是RAM:有限的工作内存。

工具和外部知识库是外设:如计算器、文件系统、浏览器等。

与LLM的文本聊天就像早期的命令行终端:我们还未发明出真正原生的图形用户界面(GUI)。

像电网 (Utility): LLM的训练需要巨大的资本支出(CAPEX),服务则需要持续的运营支出(OPEX),用户按需付费(按token计费),并且我们对它有高可用性、低延迟的要求。当OpenAI宕机时,就像一次“智能停电”。

像芯片厂 (Fab): 训练LLM需要深厚的技术、巨大的投入和核心机密。使用NVIDIA GPU的公司就像“无晶圆厂”的设计公司,而像Google这样自研TPU的公司则更像拥有自己芯片厂的英特尔。

3. LLM的“心理学”:与一个有认知缺陷的天才合作

Karpathy强调,要用好LLM,必须理解其独特的“心理”特征。他将其形容为一个“有认知问题的天才博学家(savant)”:

百科全书般的知识:记忆力超群,像电影《雨人》中的主角。

幻觉 (Hallucinations):会一本正经地胡说八道。

锯齿状智能 (Jagged Intelligence):在某些领域远超人类,但在另一些简单问题上(如“2+2=5”)却会犯错。

顺行性遗忘症 (Anterograde Amnesia):没有持续学习的能力,每次对话都像《记忆碎片》或《初恋50次》的主角,上下文窗口一过就忘记了之前的事。

轻信 (Gullibility):容易被提示词注入(Prompt Injection)攻击所欺骗。

4. 创业机会:构建“部分自治”产品和为智能体服务的基础设施

基于以上洞见,Karpathy指出了巨大的创业机会:

构建“部分自治”产品 (Partial Autonomy Products):

做“钢铁侠战衣”,而不是“钢铁侠机器人”:当前阶段,成功的AI产品更多是作为增强人类能力的“战衣”(Augmentation),而不是完全自主的“机器人”(Agent)。

优化“人机协作”循环:AI负责生成(Generation),人类负责验证(Verification)。关键在于设计优秀的UI/UX,让这个循环尽可能快速、高效。

引入“自治滑块” (Autonomy Slider):让用户可以根据任务的复杂度和对AI的信任度,自由调节AI的自主程度。从简单的代码补全,到修改代码块,再到完全重构整个项目。

为智能体构建基础设施 (Build for Agents):

文档从“给人看”到“给AI看”:传统的文档充满了图片、列表等为人类设计的元素。未来的软件和服务需要提供机器可读的文档(如Markdown格式的llms.txt),让AI能直接理解和使用。

将“点击”操作转化为API调用:文档中不应再说“点击这里”,而应直接提供可执行的cURL命令,方便AI调用。

开发“上下文构建器” (Context Builders):创建能自动分析GitHub仓库、PDF文档等复杂信息,并将其转化为LLM易于理解的结构化上下文的工具,这是一个巨大的机会。

最后,Karpathy以他提出的“氛围编程” (Vibe Coding)*概念收尾。他认为,AI正在释放一代全新的、充满创造力的建设者,他们不需要多年的编程训练,只需通过“氛围”和自然语言就能构建软件。这是一个激动人心的未来,充满了无限的可能性。

(文:路过银河AI)

发表评论