学术归档 - 第123页共283页

RL for LLMs，强化学习的 Scaling Law 才刚刚起步？

2025年4月13日11时作者机器之心

近期研究者通过奖励模型增强通用奖励模型在推理阶段的可扩展性，同时使用强化学习提升LLM性能。然而，当前强化学习算法仍有改进空间，奖励稀疏性是主要难点之一。

2025年4月13日8时作者 PaperWeekly

namic Road Network and Trajectory Representation L

2025年4月12日19时作者 GiantPandaCV

下来我们详细对这块内容进行分析, 本文目录如下.
0.
为什么需要Layout代数
1.
Layou

2025年4月12日19时作者 GiantPandaCV

on讲的挺好的
《A Generalized Micro-kernel Abstraction fo

2025年4月12日19时作者 GiantPandaCV

l架构被虐成狗了. 而Volta这一代的架构规划是在2013年, 应该有可能是在2015年附近得到了

2025年4月12日19时作者 GiantPandaCV

化. 通过逐步迭代优化来更加深入理解GPU的性能相关的特征和访问内存优化. TensorCore相关

2025年4月12日19时作者 GiantPandaCV

re进行矩阵计算, 通常我们需要按照如下流程逐步分块从GMEM加载矩阵块到SMEM再到寄存器文件,然

2025年4月12日19时作者 GiantPandaCV

代码的作者
Cuda-Samples
[1]
中的cudaTensorCoreGemm 代码
知乎:

2025年4月12日19时作者 GiantPandaCV

别是Layout代数相关的内容, 后面再逐渐细化到一些硬件实现访存优化和一些算子融合相关的话题, 准