马斯克“点赞”的AI趋势解读:OpenAI已被追上,微软撤退了,“推理时代”巨型数据中心只需2-3个

Gavin Baker表示未来数据成为竞争核心,预训练和推理计算资源分配将变为5/95。他预计AI模型需2-3家巨型数据中心完成预训练任务,而推理阶段则由6-10家分布式低成本边缘节点主导。

《超大规模操作手册:在 GPU 集群上训练 》Part3(寻找最佳的GPU优化配置)

在模型大小和Batch Size确定后,通过实验逐步调整并行技术组合以优化训练吞吐量。讨论了不同配置下的内存、通信瓶颈以及节点数量增加对效率的影响,并强调了实际实验设计中的挑战与教训。

Anthropic 推全球首个混合推理模型Claude 3.7,编程能力大幅增强

Anthropic发布了新款Claude 3.7和Claude Code,Claude 3.7是首个混合推理模型,可在不同模型间选择答案,并展示思考过程。它在多个基准测试中表现优异,在SWE-bench Verified 和 TAU-bench 中表现出色,在零售和航空场景下的表现也优于其他模型。Anthropic还推出了代理编码工具Claude Code,能帮助用户完成代码任务。