DeepSeek-R2 推迟发布?一场关于性能、芯片与时机的博弈
DeepSeek-R2 模型因 CEO 对性能不满及美国出口管制影响而推迟发布,目前面临算力短缺问题。该模型原计划在 2025 年初发布,但已延期多周,团队正尝试通过国产替代和优化模型结构来重新建立发布条件。
DeepSeek-R2 模型因 CEO 对性能不满及美国出口管制影响而推迟发布,目前面临算力短缺问题。该模型原计划在 2025 年初发布,但已延期多周,团队正尝试通过国产替代和优化模型结构来重新建立发布条件。
DeepSeek-R2再次被曝推迟发布,原因包括CEO不满意R2的表现和研发过程中缺少英伟达H20芯片。此前有传言称R1训练需要3万块H20、1万块H800和1万块H100,而R2预计会耗费更多算力资源。
DeepSeek 新模型引发热议,混合专家模型 DeepSeek-R2 集齐 1.2 万亿参数和 780 亿动态激活参数,成本比 GPT-4 低97.3%,引发广泛关注。
Meta AI研究副总裁Joelle Pineau宣布将于5月离职,正值扎克伯格加大AI投资之际。Pineau主导了Llama开源系列及PyTorch项目,此举引发业内对Meta战略调整和未来新作的猜测。
DeepSeek团队发布升级模型DeepSeek-V3-0324,该模型在代码生成方面表现出色,价格仅为Claude 3.7 Sonnet的一小部分。开发者对其响应速度和资源占用优势表示赞赏,并认为它可能成为下一代推理模型R2的基础。