CVPR 2025 归档 - 每时AI

3D VLA新范式！中科院&字节Seed提出BridgeVLA，斩获CVPR 2025 workshop冠军！

2025年6月24日11时作者机器之心

中科院自动化所谭铁牛团队提出BridgeVLA，通过将预训练和微调的输入输出对齐到统一2D空间来提升3D VLA模型的数据效率与操作效果。

2025年6月9日23时作者机器之心

本文介绍了一篇被CVPR 2025接收的论文AdaCM2，该研究提出首个支持超长视频理解的跨模态记忆压缩框架。通过观察视频与文本交互过程中的帧内注意力稀疏性和层间语义冗余性，提出了逐帧回归式建模、跨模态注意力打分和分层压缩机制等关键技术点，显著提高模型性能并降低内存消耗。

2025年6月5日23时作者量子位

CVPR 2025 Tutorial探讨视频生成作为世界模型的潜力，涵盖学术界与产业界的最新研究。

2025年6月5日8时作者机器之心

本文介绍了一篇CVPR 2025 Highlight论文《CrossFlow》及其相关工作，该研究提出了一个新的跨模态生成框架，并在多个任务上取得了媲美甚至超越最优算法的性能。

2025年5月5日16时作者量子位

港科大团队提出的MultiGO方案通过三级几何学习框架解决了单目图像下三维人体重建的难题，显著提升了人体模型的质量和细节精度。

2025年3月21日11时作者量子位

腾讯AI Lab和清华大学提出的新模型StdGEN能够在3分钟内生成具有精细细节的可分拆3D角色，质量超过现有方法。StdGEN使用语义感知的大规模重建模型从多视角图像中联合重建几何、颜色和语义信息，并通过迭代优化提高质量。

2025年3月16日23时作者量子位

Uni-Renderer团队在CVPR 2025上提出了一种双流扩散框架，实现了渲染和逆渲染的统一。通过改进的timestep调度策略、材质编辑和重光照功能等技术，该模型在性能方面达到了新SOTA水平，并且在合成数据集上的表现优于现有方法。

2025年3月16日8时作者 AI寒武纪

Meta AI华人团队联合大牛发布论文，证明Transformer模型可以不用Normalization层也能达到甚至超越现有性能。核心秘密是Dynamic Tanh (DyT)函数，相比传统方法，DyT简单有效，性能不输且速度快、成本低。

2025年3月14日23时作者头部科技

Transformer模型可能迎来新变化。一篇最新论文提出无需归一化的Transformer模型能够达到甚至超过带有归一化层的性能，通过动态双曲正切函数（DyT）替代传统归一化层，有望进一步改进AI模型性能。