跳至内容
每时AI

每时AI

  • 资讯
  • 国际
  • 分享
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 关于我们

CUDA

AMD跑DeepSeek性能超H200!128并发Token间延迟不超50ms,吞吐量达H200五倍

2025年3月25日16时 作者 量子位

AMD MI300X在FP8下全面超越英伟达H200,吞吐量最高可达H200的5倍。得益于SGLang框架和优化的AI内核库AITER,MI300X在延迟相似的情况下实现了更高的吞吐量,并且在固定并发情况下性能提升75%。

分类 资讯 标签 CUDA、 MI300X、 SGLang框架、 克雷西、 吞吐量、 量子位 发表评论

AlexNet-Source-Code:2012 年的原始 AlexNet 源代码

2025年3月24日8时 作者 NLP工程化

AlexNet-Source-Code (2012年) 在ImageNet竞赛中夺冠,推动深度学习应用,包含原始参数文件和CUDA加速训练。

分类 开源 标签 2012年ImageNet竞赛、 AlexNet、 CUDA、 深度学习、 计算机历史博物馆、 训练效率 发表评论

Stable Virtual Camera:Stability AI 推出的 2D 图像转 3D 视频模型,一键生成沉浸式视频

2025年3月23日14时 作者 小兵的AI视界

新性成果,它能将
2D
图像高效转化为具备深度与透视效果的
3D
视频。
这一技术不仅为内容创作者们

分类 开源 标签 CUDA、 Linux系统、 Python、 PyTorch、 Stable Virtual Camera、 Ubuntu 20.04 发表评论

simplegemm:从零开始实现高性能矩阵乘法的CUDA项目

2025年3月22日8时 作者 NLP工程化

手写CUDA代码实现高性能矩阵乘法的simplegemm项目介绍及其优化过程

分类 开源 标签 bertmaher、 CUDA、 CUTLASS、 Pingpong GEMM、 simplegemm、 优化 发表评论

详解vLLM和SGLang awq dequantize kernel的魔法

2025年3月17日8时 作者 GiantPandaCV

kernel触发条件为当输入x的shape的tokens<256时,这个时候会先把int4的awq权

分类 学术 标签 AWQ、 CUDA、 INT4、 PTX指令、 反量化、 高效 发表评论

苏妈击溃英特尔再战英伟达,十年逆袭市值飙至1600亿!AMD怪兽完爆4090 7.3倍

2025年3月14日16时 作者 新智元

的48G两款GPU基准测试,AI性能相较4090飙升7.3倍。看来AMD这次是铁了心,要跟英伟达掰手

分类 资讯 标签 AI计算、 AMD、 CUDA、 Lisa Su、 研发预算、 软件生态系统 发表评论

一文详解:DeepSeek 第三天开源的 DeepGEMM

2025年2月26日14时 作者 赛博禅心

pper 架构 GPU 优化的矩阵乘法库 — DeepGEMM
。这一库支持标准矩阵计算和混合专家模

分类 分享 标签 CUDA、 CUTLASS、 DeepSeek、 Hopper架构、 PyTorch、 非标准块大小 发表评论

一文看懂 DeepSeek 刚刚开源的 FlashMLA,这些细节值得注意

2025年2月24日16时 作者 APPSO

今天正式推出DeepSeek开源周,FlashMLA在极短时间内收获超过3.5K Star。它是针对HopperGPU优化的高效MLA解码内核,支持变长序列处理。FlashMLA通过优化减轻了内存占用并加速计算过程。

分类 资讯 标签 CUDA、 DeepSeek、 FlashMLA、 Hopper GPU、 LLM、 MLA 发表评论

Linear Attention的cuda kernel实现解析

2025年2月2日23时 作者 极市干货

↑ 点击
蓝字
关注极市平台
作
者丨BBuf
来源丨GiantPandaCV
编辑丨极市平台
极市

分类 学术 标签 Block Size、 CUDA、 Grid Size、 Linear Attention、 nvprof、 Occupancy 发表评论

DeepSeek绕开CUDA垄断,V3论文细节再挖出!英伟达护城河不存在了?

2025年1月29日16时 作者 新智元

新智元报道
DeepSeek团队通过优化英伟达GPU的PTX指令集,绕过了CUDA实现了高效训练超大规模语言模型。这一突破引发了业界对CUDA护城河的质疑。

分类 资讯 标签 6710亿参数、 CUDA、 DeepSeek、 H800GPU、 LLM、 PTX 发表评论
较早文章
较新文章
← 上一页 页面1 页面2 页面3 页面4 下一页 →

AGI AI AI技术 Anthropic ChatGPT Claude DeepSeek DeepSeek-R1 DeepSeek R1 GitHub GPT-4o LLM Meta OpenAI Python Sam Altman 人工智能 人形机器人 具身智能 大型语言模型 大模型 大语言模型 字节跳动 工业机器人 开源 强化学习 微软 扩散模型 技术创新 智能体 木易 机器学习 深度学习 清华大学 生成式AI 用户体验 百度 腾讯 自然语言处理 英伟达 谷歌 阿里云 阿里巴巴 马斯克 黄仁勋

分类

  • 分享
  • 国际
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 资讯
  • DeepMind率先拿下IMO金牌,却被OpenAI 抢先发布了……
  • 从 n8n 到 Claude Code:我试了 10 类爆火 AI 工具,发现不用融资也能干正事
  • 大模型再爆弱点!旧记忆忘不掉,新记忆分不出,准确率暴降 ICML’25
  • Kimi又火了,深度体验它的第一个Agent 后,我发现99%的AI产品忽略了这件「小事」
  • 谷歌AlphaFold得了诺奖,但DeepMind根本没引用前人论文?

2025 年 7 月
一 二 三 四 五 六 日
 123456
78910111213
14151617181920
21222324252627
28293031  
« 6 月    

归档

  • 2025 年 7 月
  • 2025 年 6 月
  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月

AI新闻 | X平台 | APK反编译 | 京ICP备2024096144号 |
© 2025 每时AI • Built with GeneratePress
 下载我们的APP,AI秒送达!  立即下载
×