【博客转载】CUDA Kernel Execution Overlap
CUDA kernel执行重叠可以通过调整blocks_per_grid的值来实现。通过使用不同的blocks_per_grid值,可以观察到不同kernel执行之间的重叠效果。隐式同步可能导致默认流中的CUDA命令间的同步问题,并可通过启用per-thread default Stream来解决。
CUDA kernel执行重叠可以通过调整blocks_per_grid的值来实现。通过使用不同的blocks_per_grid值,可以观察到不同kernel执行之间的重叠效果。隐式同步可能导致默认流中的CUDA命令间的同步问题,并可通过启用per-thread default Stream来解决。
NVIDIA团队提出ProRL框架,在2000步以上长期强化学习基础上,大幅提升大语言模型的推理能力。ProRL训练后模型在逻辑谜题等任务中表现出显著进步,不仅提高了解题准确率,还能生成新解法。研究揭示了长期RL训练的重要性及其对模型边界扩展的影响。
Fast-dLLM 提出分块 KV 缓存和置信度感知并行解码技术,显著提升扩散模型推理速度至原速的 27.6 倍,同时保持较高生成精度。
英伟达股价因财报飙升至3.394万亿美元,超越苹果成为全球市值第一公司。尽管AI开源模型对英伟达造成短期损失,但其数据中心业务仍保持强势增长,预计2025年第二季度收入将达到280亿美元。
老黄在COMPUTEX 2025演讲中阐述了NVIDIA如何从芯片公司转型为AI基础设施公司的策略,并展示了新款GeForce RTX 5060与Grace Blackwell等旗舰产品。
在数字化转型中,NVIDIA使用Agentic AI技术展示了四大应用场景:AI销售助手简化信息访问和处理;小模型微调提高效率和准确性;智能Slackbot提供高效任务支持;自动化测试生成框架优化软件开发流程。