性能提升
中科院、百度提出新架构:突破参数限制,实现高效推理
专注于AIGC领域,讨论微软&OpenAI、百度文心一言等大语言模型的发展与应用。提出Inner Thinking Transformer架构(ITT),通过动态分配计算资源和思考步骤提升模型性能而不增加参数,显著优于基线模型。
4499元16G显存,AMD端掉英伟达?RX 9070系显卡出世,4K狂飙直追旗舰
AMD发布了RDNA 4架构和Radeon RX 9000系列新显卡,对标英伟达产品。RDNA 4加速器支持更多游戏,并与FSR 4技术结合提升性能。苏姿丰表示,AMD将专注于AI推理和高性能计算。
DeepSeek开源第三弹!极致榨干GPU,FP8训推秘籍公开
DeepGEMM是DeepSeek开源的一款支持FP8 GEMM的库,为V3/R1训练和推理提供动力,在Hopper GPU上性能高达1350+ FP8 TFLOPS。该库采用JIT即时编译技术,核心逻辑约为300行,仅支持英伟达Hopper Tensor Core架构,设计简单高效,且在某些形状上的表现优异。
全球AI算力报告出炉,LLM最爱A100!谷歌坐拥超100万H100等效算力
全球AI算力快速增长,2008至2024年增长超7倍。顶级硬件能效提升显著,低精度计算成为主流。英伟达、Meta等公司主导高性能GPU市场。训练大型模型所需处理器数量大幅增加。