DeepSeek开源周Day 1: FlashMLA——大家省,才是真的省
DeepSeek发布首个开源项目FlashMLA,专为英伟达Hopper GPU设计,实现了高效MLA解码内核,提供3000GB/s内存带宽和580TFLOPS计算性能,已在GitHub上吸引5000+星。
DeepSeek发布首个开源项目FlashMLA,专为英伟达Hopper GPU设计,实现了高效MLA解码内核,提供3000GB/s内存带宽和580TFLOPS计算性能,已在GitHub上吸引5000+星。
DeepEP是针对Hopper GPU优化的MoE模型训练与推理高效通信库,支持FP8和低延迟推理解码,通过NVLink和RDMA提升效率。
在模型大小和Batch Size确定后,通过实验逐步调整并行技术组合以优化训练吞吐量。讨论了不同配置下的内存、通信瓶颈以及节点数量增加对效率的影响,并强调了实际实验设计中的挑战与教训。
Anthropic发布了新款Claude 3.7和Claude Code,Claude 3.7是首个混合推理模型,可在不同模型间选择答案,并展示思考过程。它在多个基准测试中表现优异,在SWE-bench Verified 和 TAU-bench 中表现出色,在零售和航空场景下的表现也优于其他模型。Anthropic还推出了代理编码工具Claude Code,能帮助用户完成代码任务。
近日,埃隆·马斯克旗下公司推出的Grok 3语音功能可提供包括性感模式在内的多种成人内容搜索和生成能力。AI技术在成人领域的应用引发争议,国内已有厂商通过智能玩具等硬件载体引入AI。
DeepSeek发布第二款开源软件库DeepEP,专为MoE模型训练与推理设计,提供高效的全对全通信计算核,支持FP8精度运算。