CVPR 2025 CV 微调卷出天际,Mona:我小、我强、我省资源
本文提出了一种名为Mona的方法,通过引入多认知视觉滤波器和优化输入分布,在调整少于5%的骨干网络参数的情况下,显著提升了视觉识别任务的效果。
本文提出了一种名为Mona的方法,通过引入多认知视觉滤波器和优化输入分布,在调整少于5%的骨干网络参数的情况下,显著提升了视觉识别任务的效果。
清华大学计算机系郑凯文与德州大学奥斯汀分校何冠德合作的论文提出扩散桥隐式模型(DBIM),通过引入方差控制参数ρ,显著提升了扩散桥模型(DDBM)在图像翻译和修复任务上的生成质量。
清华大学研究团队提出VideoScene模型,实现视频到3D场景生成的‘一步式’方法。通过利用3D-aware leap flow distillation策略和动态降噪策略,大幅提升生成效率并保证高质量。