单应计算加速数十倍、计算量减少95%!基于几何的SKS和ACA矩阵分解被提出

本文提出了一种基于几何变换的快速且可解释的2D单应矩阵分解方法(Similarity-Kernel-Similarity, SKS和Affine-Core-Affine, ACA)。该方法大幅减少了4点求解单应的时间,尤其适用于二维码扫描等应用。

数据减少超千倍,500 美金就可训练一流视频模型,港城、华为Pusa来了

FVDM & Pusa 提出了一种新的视频扩散模型 (FVDM),通过引入向量化时间步变量 (VTV) 解决了传统视频生成的局限性。Pusa 项目利用非破坏性微调方法将预训练模型成本降低了数倍,展示了低成本、高灵活视频生成的新时代。

10×加速!DCM显著提升视频扩散模型推理效率!HunyuanVideo13B推理时间从1500秒缩短至120秒!

本文提出了一种双专家一致性模型DCM来解决视频生成中的一致性蒸馏问题,通过解耦语义合成与细节精修,显著减少采样步数的同时保持了较高的视觉质量。

统一框架下的具身多模态推理:自变量机器人让AI放下海德格尔的锤子

文章讨论了自变量机器人如何通过统一模态架构,实现具身多模态推理能力。该架构消除视觉、语言和行动之间的人为边界,并采用生成模型进行跨模态学习,最终让机器人具备符号-空间推理、物理空间推理及自主探索与协作的能力,接近人类的直觉操作方式。

清华SageAttention3,FP4量化5倍加速!且首次支持8比特训练

清华大学陈键飞团队提出SageAttention3,实现了5倍于FlashAttention的推理加速。此模型在多种视频和图像生成等大模型上保持了端到端的精度表现,并首次提出了可训练的8比特注意力用于大模型的训练加速。