学术
GPU 矩阵乘实际可达最大FLOPS测量工具
介绍了一个用于测量GPU上矩阵乘法最大FLOPS的工具mamf-finder.py,支持多种数据类型和不同GPU型号(如A100、MI300X和H100),提供了FP16和FP8使用示例。
流式深度学习终于奏效了!强化学习之父Richard Sutton力荐
本文提出了一种名为 stream-x 的深度强化学习算法,用于解决流式障碍问题。该方法无需使用重放缓冲区、批量更新或目标网络,即可从最新的经验中进行学习,并且在样本效率上可与批量强化学习相当。
斯坦福吴佳俊扩散自蒸馏来了!突破文生图身份保留挑战
斯坦福大学的研究提出了一种名为扩散自蒸馏(Diffusion Self-Distillation)的方法,该方法通过简单扩展普通扩散 transformer 模型为图像条件扩散模型来实现主体适应性和概念一致性。实验表明,其在概念保留和提示跟随方面都取得了最佳的整体性能。