清华SageAttention3,FP4量化5倍加速!且首次支持8比特训练

清华大学陈键飞团队提出SageAttention3,实现了5倍于FlashAttention的推理加速。此模型在多种视频和图像生成等大模型上保持了端到端的精度表现,并首次提出了可训练的8比特注意力用于大模型的训练加速。

韦东奕论文登数学顶刊,将散焦方程的爆破性研究扩展至d≥4

韦东奕与两位合作者的论文《On blow-up for the supercritical defocusing nonlinear wave equation》发表于数学顶刊《Forum of Mathematics, Pi》,研究了散焦非线性波动方程在特定条件下的爆破解现象。该研究成果填补了相关空白,并提出了新的证明方法,可以推广到其他偏微分方程的爆破研究。