由于信息量过于庞大,Indigo 芦义老师做了一个精华版整理,经作者授权后转载自特工宇宙公众号,略有删改。
‼️欢迎大家关注 INDIGO 的数字镜像和视频镜像。
2. https://www.youtube.com/@indigo11
BTW,我们曾在这篇文章介绍过 Indigo 老师:芦义:AI 吞噬软件,Agent 就是新 Saas.
1. DeepSeek 以其技术革新(MoE + 通信优化 + MLA attention)和超低训练成本赢得关注;
2. AI 全球博弈正因技术突破与地缘政治而加速;
3. 大规模训练集群和强化学习式后期微调将主导下一波性能飞跃,伴随 AI Agent 的兴起;
4. 开源/封闭之争持续,中国/美国皆在推进各自算力与算法优势;
5. 中长期,无论是编程行业、各行各业应用,还是对 AGI 的想象,都在加速到来。
一、DeepSeek-R1 和 V3
-
属于“常规”Transformer 语言模型的后续微调版本,包括基础模型(base)和对话/指令模型(instruct/chat)。
-
面向与 ChatGPT 类似的对话式应用场景,可回答一般性问题,格式化输出等。
-
开源权重(Open Weights),但训练数据和代码并未完全公开。
-
许可证相对自由。
-
则是一个“推理(Reasoning)”模型,采用了大规模强化学习(RL)和可验证奖励(例如数学和编程的单元测试)进行训练。 -
输出时会显式地呈现出“Chain of Thought”(模型在回答问题时的分步推理过程),从而让用户完整看到模型思考的过程。 -
在数学推理、代码生成等需要多步逻辑的任务上表现非常突出。 -
同样开源权重,并采用极为宽松的 MIT 近似许可(深度开源),可商业使用,且不含附加限制。 -
因可见的推理链和较低使用成本而在社区引发高度关注。
Deep seek V3 is a new mixture of experts Transformer language model from Deep seek who is based in China; they also have this new reasoning model R1, which really accelerated a lot of the discussion.
二、训练成本低廉
-
Mixture of Experts (MoE):稀疏激活,让不同“专家”子网络只在特定 token 上激活,降低计算量。 -
多层级的自定义通信调度:深度优化了 GPU 间的通信(甚至低至自定义 NVIDIA 底层库),减少了等待、提高并行效率。 -
MLA(Multi-Head Latent Attention):针对注意力机制做了低秩近似和注意力稀疏化,大幅减小内存占用。
They do mixture of experts extremely well, they do extremely low-level coding, and that’s how they claim a sub-10-million-dollar training cost, which stunned everyone.
三、DeepSeek 的计算集群
We actually believe they have closer to 50,000 GPUs, which is more than what they publicly state with the 2,000 figure.
四、针对中国的 GPU 出口管制
With strict export controls, the logic is: if you can’t buy a hundred thousand of the best GPUs, you can’t train a model that changes the game.
五、AGI 时间线
-
2026-2028 年间出现“超级强大 AI”可能性非常高。 -
也有人认为更安全的估计要到 2030 年以后。
-
他们确实预计接下来几年依然会出现类似 DeepSeek R1 这样的重大跃升,但尚未到真正“通用智能”完全觉醒的程度。 -
他们强调,社会更需要担心的是「AI 与人结合的超强影响力」或「极少数人通过 AI 获得巨大力量」。 -
讨论也涉及自主 AI Agent、冷战、军事等更长远威胁,但大家都倾向于认为短期内更多是经济和地缘博弈,不是真正的“AI 统治”。
Some folks like Dario say we might see super-powerful AI by 2026; others think it’s after 2030—it’s a wide distribution, but it’s definitely coming faster than we imagined.
六、中国的制造能力
China’s manufacturing capacity is huge. If they decided AI is number one, they could build data centers faster than anyone, provided they get the chips.
七、中美“冷战”格局
I think the US side definitely sees it as a cold war dynamic: if we let them get advanced AI, we risk losing the unipolar moment.
八、台积电与台湾
TSMC is so good partly because they focus on being a pure foundry, but also because of Taiwan’s engineering culture where people work 80-hour weeks in the fabs.
九、最佳 GPU
-
最强大的优势在于软件生态(CUDA、全套库、优化方案)完善,且对并行计算、深度学习的支持深耕十余年。 -
竞争对手 AMD 在硬件层面部分指标不错,但软件栈始终做得不好,难以撼动 NVIDIA 统治。 -
Intel 在 AI 芯片和制程上都面临巨大压力。
-
仅内部使用,不对外售卖(云租也有限),软件也缺乏对外完整支持;因此难以取代 GPU 的通用地位。 -
因此现阶段通用、大规模可用的最佳选择仍是 NVIDIA Hopper 系列(H100 等),以及后续 Blackwell 等。
At the end of the day, no one can match NVIDIA’s software stack—AMD and Intel can’t catch up, TPU is internal at Google.
十、DeepSeek 为什么如此便宜
The big two things are mixture of experts and multi-head latent attention, plus custom scheduling below CUDA—that’s how they do it so cheaply.
十一、间谍活动
It’s less about code theft, more about the knowledge transfer—top employees jump labs, and the know-how spreads.
十二、审查和过滤
Every country has some flavor of censorship or alignment—China censors politics, US has its own brand of safe or woke alignment.
十三、Andrej Karpathy 与 RL 魔法(Andrej Karpathy and magic of RL)
Almost every shocking result of deep learning comes from trial and error learning—reinforcement learning is what surprises you.
十四、OpenAI o3-mini 与 DeepSeek R1 的比较
o3-mini is indeed great, but R1 reveals chain-of-thought fully and is still cheaper and open-weight.
十五、关于 NVIDIA
背景
NVIDIA 在 AI 训练、推理硬件市场市占率极高,其股价也在 2023-2024 年大幅波动。
核心内容
1. DeepSeek 事件导致大众出现“是否 GPU 投资过热”的波动,NVIDIA 股价一度下跌。但长远看,更高的模型效率往往会促使更多人去使用 AI,反而扩大了整体 GPU 需求(杰文斯悖论)。
2. NVIDIA 通过不断推出符合美国管制要求的“受限版”GPU(A800/H800/H20 等),持续向中国出口。
3. 竞争对手(AMD、Intel)尚无法在生态和性能上撼动 NVIDIA 地位。
精彩引用(嘉宾对 NVIDIA 核心竞争力的评价)
NVIDIA is truly special—they built the entire ecosystem from CUDA upward, and no one else can replicate that quickly.
十六、GPU 走私
背景
美国限制 A100/H100 等直销到国内,是否就完全阻断了国内企业获取最先进 GPU?
核心内容
1. 实际上仍存在种种“变通”或“走私”路径:
-
云租用:如中国字节跳动在海外云(Oracle、Google Cloud 等)租大规模 GPU,绕过硬件实体进口。 -
第三地转运:从新加坡、马来西亚等地区把先进 GPU 再卖到国内。 -
个人携带:有人可能直接买下数十张卡打包带到中国。
2. 短期看,这些途径无法让国内大规模拿到数十万张最先进 GPU,但小规模采购仍旧难以彻底阻断。
精彩引用(说明高端 GPU 被走私到中国的各种离奇方式)
We’ve seen people literally checking in entire boxes of GPUs on first-class flights to China, because the markup is worth it.
17. DeepSeek 是否使用了 OpenAI 数据
背景
OpenAI 暗示 DeepSeek 可能利用 ChatGPT 或 GPT-4 的输出作为蒸馏数据,但 OpenAI 条款禁止“用其输出训练竞品模型”。
核心内容
对谈指出:
-
很难从技术上杜绝模型相互蒸馏,因为互联网上大量贴出的 ChatGPT/GPT-4 输出也会被抓去训练。 -
业内很多团队私下都会用 OpenAI 或别家大模型的输出来微调、补充数据。 -
法律层面可能会有争议,但现实中普遍存在“无法完全禁止”的情况。
精彩引用(提到蒸馏/微调界限模糊,彼此互相学习难以禁止)
OpenAI claims they found evidence DeepSeek used GPT outputs—everyone distills from each other’s model anyway, it’s basically unstoppable.
十八、AI 超大集群
背景
多家美国科技公司在大力建造动辄数十万甚至上百万 GPU 规模的“超级集群”,配套千兆瓦(GW)级别电力。
核心内容
1.xAI(Elon Musk)据称在美国孟菲斯旧工厂部署了约 20 万张 H100 的水冷集群,后续规模或达百万级。
2. OpenAI 宣布的「Stargate」计划在德州 Abilene 建 2.2 GW 电力规模的数据中心,涉及上千亿美元。
3. Meta、Amazon、Google 等也在全美多地建立大规模训练设施。
4. 关键障碍包括电力供应、冷却系统、网络互联和软件调度上的极大挑战。
精彩引用(对美国各大厂大规模建造上百万 GPU 级别数据中心的描述)
We’re talking hundreds of thousands or even a million GPUs in one place, pulling gigawatts of power—unprecedented in human history.
十九、谁将赢得 AGI 之战
各大 AI 实验室(OpenAI、Anthropic、Google DeepMind、xAI、Meta 等)都在竞相追赶更强大的通用模型。
核心内容
1. 并非“一家独大”,可能是多方并进。
2. 拥有庞大现有业务(搜索、社交、云服务)的公司可以更好地将 AI 商业化并形成收益闭环。
3. 专门型公司如 OpenAI、Anthropic,需要通过资本或与云巨头合作来支撑海量算力支出。
4. 最终可能是“谁率先训练并成功落地产业应用”,谁就短期赢,但长期还要看全球格局和政策等因素。
精彩引用(认为并非“独家胜出”,而是多家巨头疯狂投入算力竞争)
It’s not necessarily winner-take-all—multiple big labs can coexist, but each one is pushing insane compute to get there first.
二十、AI Agents
背景
“Agent” 指让大模型长时段自主连贯地执行任务,而不只是一次对话。业界对 AI Agent 的前景有高度兴趣。
核心内容
1. 真正的通用自主 Agent 要面对环境噪声、错误累积和可验证奖励等复杂挑战。
2. 对于单一或可模拟环境(如代码编写、策略游戏等),Agent 式多轮试错+验证会带来巨大增益。
3. 现实世界(包括网页、机器人)要考虑复杂的安全、权限、上下文切换,目前还不成熟。
4. Agent 落地会先在封闭域或半封闭域(如企业内部自动化、IT 运维、特定网站 API),而不是无约束地操纵整个互联网。
精彩引用(指出多步推理的 Agent 仍缺乏足够稳定度)
We do see chain-of-thought as a stepping stone, but agentic multi-step usage is still missing reliability—lots of nines needed.
二十一、编程与 AI
背景
近年 LLM 在编码、调试、补全、文档等方面带来显著效率提升,也带来对程序员岗位变动的担忧。
核心内容
1. 短期看,编程工作并不会骤然消失;人类工程师需要去管理、审阅和调度 AI 编写的大量代码。
2. 编程门槛降低会促进软件需求爆发,许多以往不具备研发能力的传统行业将能借助 AI 自主定制业务逻辑。
3. RL 方式的“生成->测试->反馈”在代码领域尤具优势,因为单元测试等可自动验证。
精彩引用(强调编程场景中,模型+可验证测试带来的生产力飞跃)
Software engineering is probably the biggest near-term value driver—code generation plus unit tests as verifiable RL.
二十二、开源与 Stargate
背景
Stargate 是 OpenAI 在得州建设的兆瓦级数据中心计划的代号,也隐含了他们要加速 AI 开发的意图。与此同时,外界也在呼吁更多开源。
核心内容
1. 部分大模型(OpenAI、Anthropic)因安全、竞争等原因不愿完全开源;而另一派(Meta、DeepSeek)则在开放权重上走得更远。
2. DeepSeek R1 以极宽松许可开源,是一次重要“事件”,对其他公司形成压力,也让更多开发者可以在此模型基础上继续迭代。
3. 整个行业仍在探寻平衡:大模型开源有助于社区快速创新,也可能带来监管与安全风险。
精彩引用(嘉宾对 DeepSeek R1 完全开源许可的评价)
DeepSeek R1, MIT licensed, is a big reset—frontier performance with no restrictions—this has never happened before in large models.
二十三、AI 的未来
对谈最后展望了未来 5-10 年甚至更远的人机关系、经济格局、政治冲击等。
核心内容
1. 未来 2-3 年,大模型会快速迭代,强化学习和 Mixture of Experts 等技术将继续演进,语义推理会更强;
2. 规模方面:各大公司会投巨资建超大算力中心,“多花钱”之下带来更多突破;
3. 最终形态可能是:更深入的 AI 工具融入生活与工作,但是否走向自主 Agent、类人意识或形成极权化控制,尚不确定。
4. 在最乐观 scenario 下,AI 会极大提高人类整体生产力,减少很多苦差事,并在医学、科学等领域带来突破。负面 scenario 则包括滥用、监管失控或社会分裂等。
精彩引用(对快速演进的 AI 前景以及如何确保正面影响的思考)
We’re on a wild ride, breakthroughs keep coming unbelievably fast, but the real question is how to shape it so it’s beneficial.


(文:特工宇宙)
深度求索的崛起让我措手不及,他们的模型不仅技术革新,还拥有超低训练成本。这可能就是他们为什么能以500万美元价格训练出来的缘故吧!
AI的浪潮中,深度求索-R1引领创新,其革命性的推理模式和可验证奖励机制令人惊叹!技术的力量如此强大,以至于它能重塑未来的计算方式。值得深入探索和学习!