【博客转载】CUDA Kernel Execution Overlap

CUDA kernel执行重叠可以通过调整blocks_per_grid的值来实现。通过使用不同的blocks_per_grid值,可以观察到不同kernel执行之间的重叠效果。隐式同步可能导致默认流中的CUDA命令间的同步问题,并可通过启用per-thread default Stream来解决。

英伟达揭示RL Scaling魔力!训练步数翻倍=推理能力质变,小模型突破推理极限

NVIDIA团队提出ProRL框架,在2000步以上长期强化学习基础上,大幅提升大语言模型的推理能力。ProRL训练后模型在逻辑谜题等任务中表现出显著进步,不仅提高了解题准确率,还能生成新解法。研究揭示了长期RL训练的重要性及其对模型边界扩展的影响。

AI收入暴涨!英伟达超过苹果,成为全球市值第二

英伟达股价因财报飙升至3.394万亿美元,超越苹果成为全球市值第一公司。尽管AI开源模型对英伟达造成短期损失,但其数据中心业务仍保持强势增长,预计2025年第二季度收入将达到280亿美元。