DeepSeek开源第四弹放大招:一口气放出并行计算优化三剑客「训练速度,GPU利用,优化经验」

DeepSeek 开源周第四天推出三剑客,包括DualPipe、EPLB和profile-data项目。DualPipe优化计算与通信重叠;EPLB实现专家并行负载均衡;profile-data提供模型训练和推理的性能分析数据。

腾讯混元团队提出MM-IQ:多模态大模型推理评估新基准

腾讯 Hunyuan 团队提出 MM-IQ 基准测试框架,旨在评估多模态模型的抽象推理和逻辑思维能力。该基准包含 8 种不同推理范式,涵盖 2,710 个精心策划的测试项目,涉及逻辑运算、数学推理等多样化的题目配置。

扎克伯格来救市了?报道称Meta正筹划2000亿美元巨型数据中心

据报道,Meta正在商讨建立一个新的数据中心园区用于其人工智能业务。该项目可能超过2000亿美元规模最大,并需要5-7千兆瓦的电力供应。扎克伯格筹划的大动作可能缓解市场对数据中心过剩的担忧。

Migician:清华、北大、华科重磅出击!多图像定位大模型,安防与自动驾驶的“破局者”

在人工智能飞速发展的背景下,清华大学联合实验室研发的Migician多模态视觉定位模型解决了复杂场景下的目标定位难题。该模型能结合文本描述和图像信息,在安防监控、自动驾驶、医疗影像分析及机器人具身智能等多个领域实现高效准确的目标定位,显著提升系统的感知与决策能力。