极市干货
文本提示、空间映射?任意条件组合都拿下!UniCombine:统一的多条件组合式生成框架
UniCombine 是一种基于 DiT 的多条件可控生成框架,能够处理任意条件组合。它在多种多条件生成任务上达到了最先进的性能,并且构建了首个针对多条件组合式生成任务设计的数据集 SubjectSpatial200K。
2025长三角(芜湖)算力算法创新应用大赛赛题征集公告
为促进长三角数字经济高质量发展,2025长三角(芜湖)算力算法创新应用大赛面向全国征集赛题。赛事设数据、算力和算法三大方向,要求提供具有实际价值和技术挑战的优质题目,并在4月23日前提交。
CVPR 2025|腾讯优图实验室22篇论文入选,含深度伪造检测、自回归视觉生成、多模态大语言模型等研究方向
录用结果揭晓,腾讯优图实验室共有22篇论文入选,内容涵盖深度伪造检测、自回归视觉生成、多模态大语言模
DeepSeek多模态能力起底!一探究竟Janus 系列模型:解耦统一多模态理解和生成模型的视觉编码
解统一架构代表作 Janus 以及后续扩大版本 Janus-Pro。
>>加入极市CV技术交流群,走
CVPR 2025 拿下多个第一!MonSter:双目深度估计大模型
本文介绍了一种用于双目深度估计的大模型MonSter,通过结合单目深度估计和立体匹配的互补优势,在五个常用基准测试上均达到SOTA水平,并展现出强大的泛化性能。
TNNLS 2025 通用的视觉Backbone!TransXNet: 全局动态性+局部动态性=性能强大,代码已开源!
香港大学俞益洲团队提出TransXNet,结合D-Mixer和Multiscale Feed-forward Network架构,在图像分类、目标检测、语义分割任务上均取得显著性能提升。
U-Net和ViT凑一块,会发生什么?U-REPA:精准对齐Diffusion U-Net与ViT特征空间,训练提速42%
U-Net 架构对齐到 ViT(Vision Transformer)特征空间
的新方法
U-REP