Llama 4 发布:我看到了 DeepSeek 的影子
Llama 4 发布三款模型:Scout、Maverick 和 Behemoth。参数量分别为109B、400B和2T;Maverick 在多项任务上超越GPT-4,并且推理成本仅为其十分之一。
Llama 4 发布三款模型:Scout、Maverick 和 Behemoth。参数量分别为109B、400B和2T;Maverick 在多项任务上超越GPT-4,并且推理成本仅为其十分之一。
DeepSeek-AI 发布了 DeepGEMM 库,专为 Hopper GPU 架构的 FP8 矩阵乘法加速。其性能高达 1350+ TFLOPS,代码简洁至仅 300 行。该库支持稠密模型和混合专家模型,并通过多种技术实现高效优化,提供详细实测数据及安装指南。
DeepSeek R1秒速回复引人关注,其背后有多项黑科技支持。问小白展示出快速响应的能力,包括使用MoE模型、多模块并行处理等技术,大幅提升了生成速度和质量。