关于 DeepSeek、中美 AI、英伟达、Agent 等 23 个话题讨论

Lex Fridman 今早发布了一个长达五个小时的播客，内容涵盖 DeepSeek, China, OpenAI, NVIDIA, xAI, TSMC, Stargate 等话题。

由于信息量过于庞大，Indigo 芦义老师做了一个精华版整理，经作者授权后转载自特工宇宙公众号，略有删改。

‼️欢迎大家关注 INDIGO 的数字镜像和视频镜像。

1. https://www.indigox.me/about/

2. https://www.youtube.com/@indigo11

BTW，我们曾在这篇文章介绍过 Indigo 老师：芦义：AI 吞噬软件，Agent 就是新 Saas.

以下为对谈中围绕各大主题的主要信息与观点提炼。整体而言：

1. DeepSeek 以其技术革新（MoE + 通信优化 + MLA attention）和超低训练成本赢得关注；

2. AI 全球博弈正因技术突破与地缘政治而加速；

3. 大规模训练集群和强化学习式后期微调将主导下一波性能飞跃，伴随 AI Agent 的兴起；

4. 开源/封闭之争持续，中国/美国皆在推进各自算力与算法优势；

5. 中长期，无论是编程行业、各行各业应用，还是对 AGI 的想象，都在加速到来。

整个对谈给出的信息显示，行业各路玩家都在以空前的投入（算力、资金、研究）迈向更强大的通用 AI，而深层次的社会与政治影响也在酝酿。

下面是对谈中围绕提到的 20 多个主要话题的要点总结，按照原问题中的顺序逐一整理。为了方便阅读，每个主题都先给出简要背景，再列出对谈中的核心内容和观点。请注意，这些总结均基于对谈中出现的信息和嘉宾的个人见解，并不代表最终事实定论。

一、DeepSeek-R1 和 V3

背景

DeepSeek 是 Highflyer 公司（量化交易背景）旗下的 AI 团队，其在 2023 年末至 2024 年初先后发布了两大模型：DeepSeek V3（包含基础模型和 Instruction/Chat 模型），以及 DeepSeek R1（Reasoning 模型）。两者都在国际 AI 社区引起轰动。

核心内容

1. DeepSeek V3：

属于“常规”Transformer 语言模型的后续微调版本，包括基础模型（base）和对话/指令模型（instruct/chat）。
面向与 ChatGPT 类似的对话式应用场景，可回答一般性问题，格式化输出等。
开源权重（Open Weights），但训练数据和代码并未完全公开。
许可证相对自由。

2. DeepSeek R1：

则是一个“推理（Reasoning）”模型，采用了大规模强化学习（RL）和可验证奖励（例如数学和编程的单元测试）进行训练。
输出时会显式地呈现出“Chain of Thought”（模型在回答问题时的分步推理过程），从而让用户完整看到模型思考的过程。
在数学推理、代码生成等需要多步逻辑的任务上表现非常突出。
同样开源权重，并采用极为宽松的 MIT 近似许可（深度开源），可商业使用，且不含附加限制。
因可见的推理链和较低使用成本而在社区引发高度关注。

精彩引用（强调 V3 和 R1 的发布及其影响）

Deep seek V3 is a new mixture of experts Transformer language model from Deep seek who is based in China; they also have this new reasoning model R1, which really accelerated a lot of the discussion.

二、训练成本低廉

背景

DeepSeek 宣称其训练 DeepSeek V3（或 R1 base）仅花费约 500 万美元，远低于外界对大模型预期的几千万到数亿美元规模。对谈中就此数字背后的技术因素展开了讨论。

核心内容

1. 他们采用了多项技术优化（尤其是 Mixture of Experts + Multi-Head Latent Attention 等），大幅降低了训练时实际需要的 FLOPs 和通信成本。

2. 具体包括：

Mixture of Experts (MoE)：稀疏激活，让不同“专家”子网络只在特定 token 上激活，降低计算量。
多层级的自定义通信调度：深度优化了 GPU 间的通信（甚至低至自定义 NVIDIA 底层库），减少了等待、提高并行效率。
MLA（Multi-Head Latent Attention）：针对注意力机制做了低秩近似和注意力稀疏化，大幅减小内存占用。

3. 这使得训练总成本（不含研发人力和反复尝试等）在他们声称的数百万美元量级。

4. 需要强调的是，真实成本还应包含研究失败的试验、模型后续微调等，但 DeepSeek 在硬件和软件层面效率很高，确实在业内形成“价格震撼效应”。

精彩引用（指出如何将训练成本压低到 500 万美元级别）

They do mixture of experts extremely well, they do extremely low-level coding, and that’s how they claim a sub-10-million-dollar training cost, which stunned everyone.

三、DeepSeek 的计算集群

背景

DeepSeek 背后的母公司是幻方量化基金。其在 2021 年就已在国内建立了号称 1 万颗 NVIDIA A100 规模的集群，此后还不断扩容。

核心内容

1. 目前其对外公开只提了「2000 张 H800 GPU」用于预训练，但实际上外界猜测其可支配的 GPU 数量可能远大于此（有人估计达数万乃至 5 万+）。

2. 量化交易机构本身就有大量 GPU 用于做高频交易、自动化交易等，它们或与 DeepSeek 共享基础设施。

3. 训练时主要使用了 NVIDIA H800（专为中国市场削弱互联带宽的 H100 变体），DeepSeek 通过自研的通信和并行库，克服了 H800 带宽不足的限制。

4. DeepSeek 可能还拥有额外的 A100、H100 或走「租用国外云」等方式进行研究，但细节不对外完全公开。

精彩引用（对 DeepSeek 真实 GPU 数量的推测远高于其官方宣称）

We actually believe they have closer to 50,000 GPUs, which is more than what they publicly state with the 2,000 figure.

四、针对中国的 GPU 出口管制

背景

美国于 2022 年 10 月开始，对高端 GPU（如 A100/H100）向中国出口进行管控，并多次更新限制条款。NVIDIA 为应对管制，专门推出性能被阉割或带宽受限的 A800/H800 等型号。

核心内容

1. 出口管制主要试图限制中国获得最先进的 AI 训练 GPU，以「减缓中国在 AGI 或军民两用上的潜在领先」。

2. DeepSeek 采用的 H800 也在后续新规中进一步被禁止，NVIDIA 又推出了 H20 等更进一步降算力/带宽的版本。

3. 由于推理（inference）更加依赖显存带宽、训练则依赖 FLOPs，因此削减不同指标会对不同环节产生不同影响。

4. 但无论如何，中国的一些顶尖团队仍能合法或通过“变通渠道”获取相当可观的 GPU 资源。

精彩引用（说明美国出口管制的核心思路 – 限制中国获取海量高端 GPU）

With strict export controls, the logic is: if you can’t buy a hundred thousand of the best GPUs, you can’t train a model that changes the game.

五、AGI 时间线

背景

对谈中提到包括 Anthropic CEO、OpenAI 等都在给出「AGI 在 2025-2030 年左右出现」的强力论调；也有人更谨慎甚至更激进。

核心内容

1. 不同嘉宾给出的主观判断不一。有观点认为：

2026-2028 年间出现“超级强大 AI”可能性非常高。
也有人认为更安全的估计要到 2030 年以后。

2. 在对谈嘉宾看来：

他们确实预计接下来几年依然会出现类似 DeepSeek R1 这样的重大跃升，但尚未到真正“通用智能”完全觉醒的程度。
他们强调，社会更需要担心的是「AI 与人结合的超强影响力」或「极少数人通过 AI 获得巨大力量」。
讨论也涉及自主 AI Agent、冷战、军事等更长远威胁，但大家都倾向于认为短期内更多是经济和地缘博弈，不是真正的“AI 统治”。

精彩引用（关于 AGI/超级强大 AI 时间的各种预测意见）

Some folks like Dario say we might see super-powerful AI by 2026; others think it’s after 2030—it’s a wide distribution, but it’s definitely coming faster than we imagined.

六、中国的制造能力

背景

中国在电力基础设施、大规模工业制造（包括芯片低端制程和上游材料）方面拥有巨大产能。

核心内容

1. 嘉宾指出，中国若真要“卷起袖子”大搞 AI 数据中心，可能比美国建得更快，因为在基建和产能上相对“可以不顾其他”。

2. 但目前美国的出口管制，使得中国拿不到最先进的制程与最顶尖的 GPU；所以中国的「推理规模」或「通用部署」可能受限。

3. 仍然存在大量芯片（如 H800、A800）以及低代制程的自研芯片，让中国可以在 AI 基础设施上持续增长。

精彩引用（指出中国在基建与工业产能上的潜力）

China’s manufacturing capacity is huge. If they decided AI is number one, they could build data centers faster than anyone, provided they get the chips.

七、中美“冷战”格局

背景

对谈提到美国对华的半导体、AI 等技术封锁及地缘政治，使得两国进入某种“新冷战”局势。

核心内容

1. 核心在于「谁先掌握强大 AI，谁在军事与全球影响力上占优」的判断。

2. 目前美国政府的逻辑是：宁可承受经济上的成本，也要保持对华在高端 AI 芯片上的代际领先，防止中国先拿到“超级 AI”。

3. 这会造成全球供应链分裂，也会加速中国在某些领域完全自给自足，并有潜在军事冲突的风险。

4. 也有人认为过度封锁反而可能逼迫中国大力自研，加速形成“双极格局”。

精彩引用（说明美国对华限制背后的“冷战”思维）

I think the US side definitely sees it as a cold war dynamic: if we let them get advanced AI, we risk losing the unipolar moment.

八、台积电与台湾

背景

台积电在尖端制程上处于全球最领先地位，绝大多数高端 GPU（NVIDIA）都需由台积电代工。

核心内容

1. 台积电之所以强大，既有历史人才机遇，也有台湾本地的产业文化（极度投入的工程师文化）。

2. Intel、三星也有先后尝试追赶，但目前仍在 5nm 以下节点上落后台积电。

3. 许多国家（美国、日本等）希望台积电将部分最先端产线转移到海外，但真正的核心研发团队仍主要在台湾本岛。

4. 若两岸关系恶化或爆发冲突，将对全球半导体供应造成灾难性后果。

精彩引用（概括台积电为何在最先进制程上优势巨大）

TSMC is so good partly because they focus on being a pure foundry, but also because of Taiwan’s engineering culture where people work 80-hour weeks in the fabs.

九、最佳 GPU

背景

主要聚焦 NVIDIA 为何在 AI 训练和推理上如此领先，以及 Google TPU、AMD、Intel 等竞争者的地位。

核心内容

1. NVIDIA：

最强大的优势在于软件生态（CUDA、全套库、优化方案）完善，且对并行计算、深度学习的支持深耕十余年。
竞争对手 AMD 在硬件层面部分指标不错，但软件栈始终做得不好，难以撼动 NVIDIA 统治。
Intel 在 AI 芯片和制程上都面临巨大压力。

2. Google TPU：

仅内部使用，不对外售卖（云租也有限），软件也缺乏对外完整支持；因此难以取代 GPU 的通用地位。
因此现阶段通用、大规模可用的最佳选择仍是 NVIDIA Hopper 系列（H100 等），以及后续 Blackwell 等。

精彩引用（强调 NVIDIA 在软件生态和通用性上的强势地位）

At the end of the day, no one can match NVIDIA’s software stack—AMD and Intel can’t catch up, TPU is internal at Google.

十、DeepSeek 为什么如此便宜

背景

DeepSeek 声称数百万美元就能训练出与 GPT-4 对标的模型，引发业内震动。

核心内容

1. 主要原因：MoE + 自研通信优化 + MLA Attention，把需要的实际算力和显存压力降低很多。

2. 其大规模编写低层驱动，绕过或定制化 NVIDIA 自带的通信库（Nickel），做到通信和计算的深度流水并行。

3. 同时在模型层面用稀疏激活，减少每步真正被激活的参数规模等。

4. 此外还可能有高飞基金自身“内部补贴”，让单纯“训练电费”看起来极低。

精彩引用（概括 DeepSeek 降低成本的三大关键技术）

The big two things are mixture of experts and multi-head latent attention, plus custom scheduling below CUDA—that’s how they do it so cheaply.

十一、间谍活动

背景

讨论了工业间谍、人才挖角、数据偷取、模型权重外泄等话题。

核心内容

1. 在硅谷和全球 AI 界，“点子和人才”的流动非常常见，每家大厂都互相挖人，也使得专有 know-how 在圈内传播。

2. 传统“工业间谍”在代码层面难度大，但在点子、经验、低层优化技巧等方面的泄漏却非常普遍。

3. 国家层面的“网络盗取机密”也存在，但本对谈更多聚焦于商业与人才流动层面的“隐性知识扩散”。

精彩引用（强调工业间谍更多是人才与想法流动，而非直接窃取代码）

It’s less about code theft, more about the knowledge transfer—top employees jump labs, and the know-how spreads.

十二、审查和过滤

背景

AI 模型在不同国家、文化、政策环境中面临不同形式的“审查”或“对齐（alignment）”，也涉及大公司对模型答案中敏感内容的屏蔽。

核心内容

1. 中国可能会过滤特定政治相关词条，美国公司也有自己的一套“政治正确”或“安全对齐”规程（如拒绝给出违法信息）。

2. 模型的“训练数据过滤”在底层就能决定是否包含某些事实或内容。

3. 后期还可通过强大的 RLHF（基于人类偏好）或系统提示（system prompt）做指令式封闭。

4. 大家对如何在事实呈现与审查需求之间平衡仍有激烈争论。

精彩引用（指出各国/各公司在模型对齐与审查上的不同取向）

Every country has some flavor of censorship or alignment—China censors politics, US has its own brand of safe or woke alignment.

十三、Andrej Karpathy 与 RL 魔法（Andrej Karpathy and magic of RL）

背景

Andrej Karpathy（前特斯拉 Autopilot / OpenAI / 现 xAI），提出“自我博弈/强化学习带来突破”这一著名观点。

核心内容

1. 对谈借用 Alphago/AlphaZero 类似路线：先用人类数据做初始模仿学习，再用“自博弈”强化学习把水平推到人类无法企及的高度。

2. 大语言模型也会出现类似现象：从大量文本中学习基础语言能力，然后利用“可验证奖励”（如单元测试）做多轮尝试，大幅超越仅靠人类示范的水平。

3. 关键在于“RL 能发现人类未知的新策略”。R1 和 01 之类的“Reasoning Model”就体现了这一点。

精彩引用（强调强化学习相对于单纯模仿学习更能带来“惊人”突破）

Almost every shocking result of deep learning comes from trial and error learning—reinforcement learning is what surprises you.

十四、OpenAI o3-mini 与 DeepSeek R1 的比较

背景

o3-mini 是 OpenAI 新近发布的推理模型（比 o1、o3 大家熟知的还有细分版本），而 DeepSeek R1 也是“推理型”大模型。

核心内容

1. DeepSeek R1 与 o3-mini 都在数学、逻辑推理、代码等方面有强化学习增强，并能输出多步思考过程。

2. DeepSeek R1 在费用和开源性上更具优势：o3-mini 并不开放权重且价格较高。

3. 但是在实际使用中，有人反馈 o3-mini-high 等版本可能在某些编程场景中更稳定、表现更好；而 R1 则胜在更多“Chain of Thought”透明度和自由度。

精彩引用（对比 o3-mini 与 R1 – 前者封闭、略贵，后者开源且显示完整推理链）

o3-mini is indeed great, but R1 reveals chain-of-thought fully and is still cheaper and open-weight.

十五、关于 NVIDIA

背景

NVIDIA 在 AI 训练、推理硬件市场市占率极高，其股价也在 2023-2024 年大幅波动。

核心内容

1. DeepSeek 事件导致大众出现“是否 GPU 投资过热”的波动，NVIDIA 股价一度下跌。但长远看，更高的模型效率往往会促使更多人去使用 AI，反而扩大了整体 GPU 需求（杰文斯悖论）。

2. NVIDIA 通过不断推出符合美国管制要求的“受限版”GPU（A800/H800/H20 等），持续向中国出口。

3. 竞争对手（AMD、Intel）尚无法在生态和性能上撼动 NVIDIA 地位。

精彩引用（嘉宾对 NVIDIA 核心竞争力的评价）

NVIDIA is truly special—they built the entire ecosystem from CUDA upward, and no one else can replicate that quickly.

十六、GPU 走私

背景

美国限制 A100/H100 等直销到国内，是否就完全阻断了国内企业获取最先进 GPU？

核心内容

1. 实际上仍存在种种“变通”或“走私”路径：

云租用：如中国字节跳动在海外云（Oracle、Google Cloud 等）租大规模 GPU，绕过硬件实体进口。
第三地转运：从新加坡、马来西亚等地区把先进 GPU 再卖到国内。
个人携带：有人可能直接买下数十张卡打包带到中国。

2. 短期看，这些途径无法让国内大规模拿到数十万张最先进 GPU，但小规模采购仍旧难以彻底阻断。

精彩引用（说明高端 GPU 被走私到中国的各种离奇方式）

We’ve seen people literally checking in entire boxes of GPUs on first-class flights to China, because the markup is worth it.

17. DeepSeek 是否使用了 OpenAI 数据

背景

OpenAI 暗示 DeepSeek 可能利用 ChatGPT 或 GPT-4 的输出作为蒸馏数据，但 OpenAI 条款禁止“用其输出训练竞品模型”。

核心内容

对谈指出：

很难从技术上杜绝模型相互蒸馏，因为互联网上大量贴出的 ChatGPT/GPT-4 输出也会被抓去训练。
业内很多团队私下都会用 OpenAI 或别家大模型的输出来微调、补充数据。
法律层面可能会有争议，但现实中普遍存在“无法完全禁止”的情况。

精彩引用（提到蒸馏/微调界限模糊，彼此互相学习难以禁止）

OpenAI claims they found evidence DeepSeek used GPT outputs—everyone distills from each other’s model anyway, it’s basically unstoppable.

十八、AI 超大集群

背景

多家美国科技公司在大力建造动辄数十万甚至上百万 GPU 规模的“超级集群”，配套千兆瓦（GW）级别电力。

核心内容

1.xAI（Elon Musk）据称在美国孟菲斯旧工厂部署了约 20 万张 H100 的水冷集群，后续规模或达百万级。

2. OpenAI 宣布的「Stargate」计划在德州 Abilene 建 2.2 GW 电力规模的数据中心，涉及上千亿美元。

3. Meta、Amazon、Google 等也在全美多地建立大规模训练设施。

4. 关键障碍包括电力供应、冷却系统、网络互联和软件调度上的极大挑战。

精彩引用（对美国各大厂大规模建造上百万 GPU 级别数据中心的描述）

We’re talking hundreds of thousands or even a million GPUs in one place, pulling gigawatts of power—unprecedented in human history.

十九、谁将赢得 AGI 之战

背景

各大 AI 实验室（OpenAI、Anthropic、Google DeepMind、xAI、Meta 等）都在竞相追赶更强大的通用模型。

核心内容

1. 并非“一家独大”，可能是多方并进。

2. 拥有庞大现有业务（搜索、社交、云服务）的公司可以更好地将 AI 商业化并形成收益闭环。

3. 专门型公司如 OpenAI、Anthropic，需要通过资本或与云巨头合作来支撑海量算力支出。

4. 最终可能是“谁率先训练并成功落地产业应用”，谁就短期赢，但长期还要看全球格局和政策等因素。

精彩引用（认为并非“独家胜出”，而是多家巨头疯狂投入算力竞争）‍‍

It’s not necessarily winner-take-all—multiple big labs can coexist, but each one is pushing insane compute to get there first.

二十、AI Agents

背景

“Agent” 指让大模型长时段自主连贯地执行任务，而不只是一次对话。业界对 AI Agent 的前景有高度兴趣。

核心内容

1. 真正的通用自主 Agent 要面对环境噪声、错误累积和可验证奖励等复杂挑战。

2. 对于单一或可模拟环境（如代码编写、策略游戏等），Agent 式多轮试错+验证会带来巨大增益。

3. 现实世界（包括网页、机器人）要考虑复杂的安全、权限、上下文切换，目前还不成熟。

4. Agent 落地会先在封闭域或半封闭域（如企业内部自动化、IT 运维、特定网站 API），而不是无约束地操纵整个互联网。

精彩引用（指出多步推理的 Agent 仍缺乏足够稳定度）

We do see chain-of-thought as a stepping stone, but agentic multi-step usage is still missing reliability—lots of nines needed.

二十一、编程与 AI

背景

近年 LLM 在编码、调试、补全、文档等方面带来显著效率提升，也带来对程序员岗位变动的担忧。

核心内容

1. 短期看，编程工作并不会骤然消失；人类工程师需要去管理、审阅和调度 AI 编写的大量代码。

2. 编程门槛降低会促进软件需求爆发，许多以往不具备研发能力的传统行业将能借助 AI 自主定制业务逻辑。

3. RL 方式的“生成->测试->反馈”在代码领域尤具优势，因为单元测试等可自动验证。

精彩引用（强调编程场景中，模型+可验证测试带来的生产力飞跃）

Software engineering is probably the biggest near-term value driver—code generation plus unit tests as verifiable RL.

二十二、开源与 Stargate

背景

Stargate 是 OpenAI 在得州建设的兆瓦级数据中心计划的代号，也隐含了他们要加速 AI 开发的意图。与此同时，外界也在呼吁更多开源。

核心内容

1. 部分大模型（OpenAI、Anthropic）因安全、竞争等原因不愿完全开源；而另一派（Meta、DeepSeek）则在开放权重上走得更远。

2. DeepSeek R1 以极宽松许可开源，是一次重要“事件”，对其他公司形成压力，也让更多开发者可以在此模型基础上继续迭代。

3. 整个行业仍在探寻平衡：大模型开源有助于社区快速创新，也可能带来监管与安全风险。

精彩引用（嘉宾对 DeepSeek R1 完全开源许可的评价）

DeepSeek R1, MIT licensed, is a big reset—frontier performance with no restrictions—this has never happened before in large models.

二十三、AI 的未来

背景

对谈最后展望了未来 5-10 年甚至更远的人机关系、经济格局、政治冲击等。

核心内容

1. 未来 2-3 年，大模型会快速迭代，强化学习和 Mixture of Experts 等技术将继续演进，语义推理会更强；

2. 规模方面：各大公司会投巨资建超大算力中心，“多花钱”之下带来更多突破；

3. 最终形态可能是：更深入的 AI 工具融入生活与工作，但是否走向自主 Agent、类人意识或形成极权化控制，尚不确定。

4. 在最乐观 scenario 下，AI 会极大提高人类整体生产力，减少很多苦差事，并在医学、科学等领域带来突破。负面 scenario 则包括滥用、监管失控或社会分裂等。

精彩引用（对快速演进的 AI 前景以及如何确保正面影响的思考）

We’re on a wild ride, breakthroughs keep coming unbelievably fast, but the real question is how to shape it so it’s beneficial.

（文：特工宇宙）