CUDA 归档 - 第3页共4页

AMD跑DeepSeek性能超H200！128并发Token间延迟不超50ms，吞吐量达H200五倍

2025年3月25日16时作者量子位

AMD MI300X在FP8下全面超越英伟达H200，吞吐量最高可达H200的5倍。得益于SGLang框架和优化的AI内核库AITER，MI300X在延迟相似的情况下实现了更高的吞吐量，并且在固定并发情况下性能提升75%。

2025年3月24日8时作者 NLP工程化

AlexNet-Source-Code (2012年) 在ImageNet竞赛中夺冠，推动深度学习应用，包含原始参数文件和CUDA加速训练。

2025年3月23日14时作者小兵的AI视界

新性成果，它能将
2D
图像高效转化为具备深度与透视效果的
3D
视频。
这一技术不仅为内容创作者们

2025年3月22日8时作者 NLP工程化

手写CUDA代码实现高性能矩阵乘法的simplegemm项目介绍及其优化过程

2025年3月17日8时作者 GiantPandaCV

kernel触发条件为当输入x的shape的tokens<256时，这个时候会先把int4的awq权

2025年3月14日16时作者新智元

的48G两款GPU基准测试，AI性能相较4090飙升7.3倍。看来AMD这次是铁了心，要跟英伟达掰手

2025年2月24日16时作者 APPSO

今天正式推出DeepSeek开源周，FlashMLA在极短时间内收获超过3.5K Star。它是针对HopperGPU优化的高效MLA解码内核，支持变长序列处理。FlashMLA通过优化减轻了内存占用并加速计算过程。

2025年2月2日23时作者极市干货

↑ 点击
蓝字
关注极市平台
作
者丨BBuf
来源丨GiantPandaCV
编辑丨极市平台
极市

2025年1月29日16时作者新智元

新智元报道
DeepSeek团队通过优化英伟达GPU的PTX指令集，绕过了CUDA实现了高效训练超大规模语言模型。这一突破引发了业界对CUDA护城河的质疑。