DeepSeek开源第四弹放大招:一口气放出并行计算优化三剑客「训练速度,GPU利用,优化经验」
DeepSeek 开源周第四天推出三剑客,包括DualPipe、EPLB和profile-data项目。DualPipe优化计算与通信重叠;EPLB实现专家并行负载均衡;profile-data提供模型训练和推理的性能分析数据。
DeepSeek 开源周第四天推出三剑客,包括DualPipe、EPLB和profile-data项目。DualPipe优化计算与通信重叠;EPLB实现专家并行负载均衡;profile-data提供模型训练和推理的性能分析数据。
腾讯 Hunyuan 团队提出 MM-IQ 基准测试框架,旨在评估多模态模型的抽象推理和逻辑思维能力。该基准包含 8 种不同推理范式,涵盖 2,710 个精心策划的测试项目,涉及逻辑运算、数学推理等多样化的题目配置。
CVPR 2025 共收到 13008 篇有效论文,最终录取 2878 篇(接收率 22.1%),创历史新低。部分审稿人被发现不负责任并拒收 19 篇论文,引发讨论。
高盛认为三大电信运营商通过直接参与云计算业务及为其他云公司提供基础设施服务间接受益于AI浪潮。它们的成本优势和国企背景使其在政府部署Deepseek中占据有利位置,并上调了目标价格。
诺和诺德开始使用Claude起草临床研究报告,每份报告长达数百页。AI工具显著缩短了文件起草时间,从约15周减少到不到10分钟,且每年在Claude上的支出不到一名撰稿人的薪资。
大摩报告指出,到2025年生成式AI的投资回报率有望转正;预计到2028年其总收入将达到近1.1万亿美元。多家科技巨头如亚马逊、Meta等有望从中受益。
据报道,Meta正在商讨建立一个新的数据中心园区用于其人工智能业务。该项目可能超过2000亿美元规模最大,并需要5-7千兆瓦的电力供应。扎克伯格筹划的大动作可能缓解市场对数据中心过剩的担忧。
在人工智能飞速发展的背景下,清华大学联合实验室研发的Migician多模态视觉定位模型解决了复杂场景下的目标定位难题。该模型能结合文本描述和图像信息,在安防监控、自动驾驶、医疗影像分析及机器人具身智能等多个领域实现高效准确的目标定位,显著提升系统的感知与决策能力。