性能提升归档 - 第5页共6页 - 每时AI

DeepSeek开源第三弹！极致榨干GPU，FP8训推秘籍公开

2025年2月26日12时作者智东西

DeepGEMM是DeepSeek开源的一款支持FP8 GEMM的库，为V3/R1训练和推理提供动力，在Hopper GPU上性能高达1350+ FP8 TFLOPS。该库采用JIT即时编译技术，核心逻辑约为300行，仅支持英伟达Hopper Tensor Core架构，设计简单高效，且在某些形状上的表现优异。

简单示例提升DeepSeek-R1美国数学邀请赛AIME分数：以步骤为粒度对齐上下文学习与推理

2025年2月20日16时作者量子位

-R1美国数学邀请赛AIME分数再提高。
上海交大、港中文、上海AI实验室等带来最新成果
Boost

全球AI算力报告出炉，LLM最爱A100！谷歌坐拥超100万H100等效算力

2025年2月15日16时作者新智元

全球AI算力快速增长，2008至2024年增长超7倍。顶级硬件能效提升显著，低精度计算成为主流。英伟达、Meta等公司主导高性能GPU市场。训练大型模型所需处理器数量大幅增加。

小红书&上交多模态大模型新基准，Gemini 1.5 Pro准确率仅48%

2025年2月12日23时作者量子位

如何？
有新基准来衡量了。
就在最近，小红书和上海交通大学联合提出
WorldSense
，一个全新

号称媲美o1的Kimi K1.5，被24点难哭了…『首发实测』

2025年1月27日14时作者 AI信息Gap

大家好，我是木易，一个持续关注AI领域的互联网技术产品经理，国内Top2本科，美国Top10 CS研

阿里云通义大模型新技术：MoE模型训练专家平衡的关键细节

2025年1月24日16时作者机器之心

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000

向视觉版o1出击，阶跃张祥雨团队推出“慢感知”，实现感知层面的推理时scaling

2025年1月24日16时作者量子位

研究团队提出’慢感知’概念，通过分解复杂几何图形为基本形状单元简化处理，并引入’感知流动’机制进行逐步推理。该方法旨在提高视觉模型对复杂几何结构的理解能力，提升多模态大模型在几何解析任务上的表现。

阶跃公开了自家新型注意力机制：KV缓存消耗直降93.7%，性能不减反增

2025年1月17日16时作者机器之心

研究提出多矩阵分解注意力（MFA）及其变体 MFA-Key-Reuse，大幅降低语言模型推理成本的同时实现性能提升。

Transformer²要做「活」的AI模型，动态调整权重，像章鱼一样适应环境

2025年1月15日16时作者机器之心

机器之心报道
机器之心编辑部
自适应 LLM 反映了神经科学和计算生物学中一个公认的原理，即大脑根据

仅缩小视觉Token位置编码间隔，轻松让多模态大模型理解百万Token！清华大学，香港大学，上海AI Lab新突破

2025年1月15日16时作者机器之心

文章介绍了V2PE（Variable Vision Position Embedding），一种用于增强视觉-语言模型在长上下文场景表现的位置编码方法。通过实验验证了其有效性和优势，为视觉-语言模型的发展带来了新的机遇。