Infra视角下的DeepSeek-V3,到底有多强?

DeepSeek发布的大规模MoE模型DeepSeek-V3在两千张H800上仅用两个月训练完成,实现了显著的性能提升。通过MLA和MoE结构改进以及辅助损失无化策略等技术优化,使得模型稀疏程度提高,同时引入了64路专家并行、流水线并行及数据并行等高效部署方案,在推理阶段取得了较好的效果。

超便携AI超算来了!这台「公文包」竟能塞下一台超级计算机

一台超级计算机被塞进了行李箱大小的公文包里。GigaIO和SourceCode联手打造的便携式AI超级计算机Gryf能在任何地方部署AI超算级别的算力,并且拥有模块化设计、强大的散热设计等特点,能支持PB级别数据集处理和现场直接将大量传感器数据转化为可行解决方案。

爬虫工程师将失业!Firecrawl 能让你一句话抓取全网数据!

网页抓取终于告别编程时代!Firecrawl推出革命性的/extract功能,只需简单提示词就能将网站转化为结构化数据。它支持批量联系人抓取、数据集构建、信息富集、实时监控等功能,并提供多语言和自动化集成能力。

以小博大,DeepSeek-R1-Distill-Qwen-1.5B 开源模型击败GPT-4和Claude 3.5!

在数学竞赛AIME测试中,Qwen-1.5B模型以28.9%的成绩击败了GPT-4和Claude 3.5-Sonnet。仅1.5B参数量的它,在MATH测试中取得83.9%成绩。DeepSeek团队采用知识蒸馏技术成功将大模型智慧浓缩进更小的模型,MIT许可下开源多个版本。