

1. 建造了 Colossus——世界上最大的 GPU 集群,目前拥有 100000 个 GPU,很快将扩展至 200000 个 GPU。
2. 发布了我们的前沿模型 Grok 2。

「Colossus 在 122 天内全面投入运行,并在第一台服务器交付后仅 19 天就开始运行工作负载。很快,xAI 将通过 NVIDIA Spectrum-X 以太网网络扩展至 200000 个 NVIDIA Hopper GPU。」
1. 确定瓶颈列表。
2. 放下其他所有事情。删除 argmax(bottlenecks)。根据定义,没有任何事情比最慢的环节更需要优先修复(P0)。
3. 从第 1 步开始重复。这是每一位经理,无论你处于何种职位,都应该学习的执行手册。

(文:APPSO)