一张图,快速生成可拆分3D角色!腾讯清华新SOTA CVPR 2025
腾讯AI Lab和清华大学提出的新模型StdGEN能够在3分钟内生成具有精细细节的可分拆3D角色,质量超过现有方法。StdGEN使用语义感知的大规模重建模型从多视角图像中联合重建几何、颜色和语义信息,并通过迭代优化提高质量。
腾讯AI Lab和清华大学提出的新模型StdGEN能够在3分钟内生成具有精细细节的可分拆3D角色,质量超过现有方法。StdGEN使用语义感知的大规模重建模型从多视角图像中联合重建几何、颜色和语义信息,并通过迭代优化提高质量。
Uni-Renderer团队在CVPR 2025上提出了一种双流扩散框架,实现了渲染和逆渲染的统一。通过改进的timestep调度策略、材质编辑和重光照功能等技术,该模型在性能方面达到了新SOTA水平,并且在合成数据集上的表现优于现有方法。
Meta AI华人团队联合大牛发布论文,证明Transformer模型可以不用Normalization层也能达到甚至超越现有性能。核心秘密是Dynamic Tanh (DyT)函数,相比传统方法,DyT简单有效,性能不输且速度快、成本低。
Transformer模型可能迎来新变化。一篇最新论文提出无需归一化的Transformer模型能够达到甚至超过带有归一化层的性能,通过动态双曲正切函数(DyT)替代传统归一化层,有望进一步改进AI模型性能。
近日,中国科学院自动化研究所推出多图数学推理全新基准MV-MATH,旨在全面评估MLLM(多模态大语言模型)的数学推理能力。结果发现,包括GPT-4o、QvQ等先进模型在该数据集上的表现均不及格。研究团队指出,现有的多模态数学基准大多局限于单一视觉场景,而MV-MATH则包含多个图像和文本交织而成的复杂多视觉场景,覆盖11个数学领域,并分为三个难度级别。
一项研究提出了一种新的数据集蒸馏方法NCFM (Neural Characteristic Function Matching),大幅提升了性能并实现了资源效率的飞跃。它通过引入神经特征函数差异度量指标,解决了现有方法的局限性,仅需2.3GB显存即可在单张GPU上完成CIFAR-100无损蒸馏,并显著超越了现有的SOTA方法。
CVPR 2025录用结果出炉,共有2878篇论文被接收,录用率为22.1%。审稿过程中发现不负责行为,19篇论文被拒。华人担任重要委员会职务,学术界努力提升质量和透明度。