CUTLASS CuTe GEMM细节分析(三)——Swizzle模板参数的取值

本文探讨了如何为新的共享内存逻辑Layout选择Swizzle模板参数B、M和S。通过简化分析,确定了M、S与PTX指令和GPU共享内存多Bank结构之间的关系,并基于实例推导出合适的B值,以避免Bank Conflict。

早鸟票倒计时1天NLPCC2025和第十届语言与智能高峰论坛注册开启

MLNLP社区是国内外知名的机器学习与自然语言处理社区,其愿景是促进学术界、产业界和爱好者之间的交流和进步。2025年8月的NLPCC会议即将举行,社区提供多种注册选项并邀请多位知名学者担任特邀报告人。

梁科@国防科技大学、周思航@国防科技大学共同担任MLNLP第三十三次学术研讨会主席

MLNLP社区举办第三十三次学术研讨会,会议将于2025年7月27日举行,大会主席是国防科技大学计算机学院教授刘新旺。该研讨会由国防科技大学计算机学院梁科老师和国防科技大学智能科学学院周思航研究员担任程序委员会主席。

ACL 2025 Oral 你的模型评测搭子上线:Evaluation Agent懂你更懂AI

来自上海人工智能实验室与新加坡南洋理工大学的研究者开发了Evaluation Agent,一个AI评估工具,能根据用户需求动态分析视觉生成模型的表现,提高评估效率、灵活性和可解释性。

ACM MM 2025 轨迹可控、主体更稳!阿里Tora2定义下一代视频生成范式

视频生成技术在快速发展中,从早期的低质量片段发展到现在的高清数分钟视频。阿里云团队提出的新算法Tora2通过融合多主体参考图像与运动轨迹指令实现外观一致性与轨迹控制。