何恺明CVPR最新讲座PPT上线:走向端到端生成建模
何恺明在CVPR会议上分享了关于识别模型演进与生成模型未来方向的见解,他提出了一种名为MeanFlow的新方法用于实现单步生成任务,并介绍了多种研究方向和问题。
何恺明在CVPR会议上分享了关于识别模型演进与生成模型未来方向的见解,他提出了一种名为MeanFlow的新方法用于实现单步生成任务,并介绍了多种研究方向和问题。
本文提出了一种基于几何变换的快速且可解释的2D单应矩阵分解方法(Similarity-Kernel-Similarity, SKS和Affine-Core-Affine, ACA)。该方法大幅减少了4点求解单应的时间,尤其适用于二维码扫描等应用。
GPT-4o、Claude 等 AI 模型在猜测 1-100 数字时,选择了概率较低的数字 42 和 73。然而,在使用汉语时,多数模型选择了 27,这一现象引起了广泛讨论和研究。
FVDM & Pusa 提出了一种新的视频扩散模型 (FVDM),通过引入向量化时间步变量 (VTV) 解决了传统视频生成的局限性。Pusa 项目利用非破坏性微调方法将预训练模型成本降低了数倍,展示了低成本、高灵活视频生成的新时代。
Reddit上爆火的吉卜力风游戏视频制作教程,国产AI即梦3.0 Pro、可灵2.1和Hailuo 02模型对比测试,展示了AI在游戏开发中的潜力。
本文提出了一种双专家一致性模型DCM来解决视频生成中的一致性蒸馏问题,通过解耦语义合成与细节精修,显著减少采样步数的同时保持了较高的视觉质量。
文章讨论了自变量机器人如何通过统一模态架构,实现具身多模态推理能力。该架构消除视觉、语言和行动之间的人为边界,并采用生成模型进行跨模态学习,最终让机器人具备符号-空间推理、物理空间推理及自主探索与协作的能力,接近人类的直觉操作方式。
清华大学陈键飞团队提出SageAttention3,实现了5倍于FlashAttention的推理加速。此模型在多种视频和图像生成等大模型上保持了端到端的精度表现,并首次提出了可训练的8比特注意力用于大模型的训练加速。