学术
文本提示、空间映射?任意条件组合都拿下!UniCombine:统一的多条件组合式生成框架
UniCombine 是一种基于 DiT 的多条件可控生成框架,能够处理任意条件组合。它在多种多条件生成任务上达到了最先进的性能,并且构建了首个针对多条件组合式生成任务设计的数据集 SubjectSpatial200K。
覆盖40+主流模型及数据集,上海交大团队发布一站式蛋白质工程设计平台VenusFactory,一键部署教程已上线
题组开发了一个专为蛋白质工程量身打造的一站式开放平台 VenusFactory,HyperAI超神经
物理视频真实生成!大连理工&莫纳什大学团队提出物理合理的视频生成框架
近日,大连理工大学与莫纳什大学的研究团队提出VLIPP框架,通过引入物理规律提升视频生成的物理真实性。论文指出视频扩散模型在物理场景下表现不佳的原因,并提出两阶段方法,利用视觉语言模型预测运动路径,再用细粒度的视频扩散模型生成符合物理规则的视频。
4K分辨率视觉预训练首次实现!伯克利&英伟达多模态新SOTA,更准且3倍加速处理
伯克利联合英伟达提出PS3视觉编码器,首次在4K超高分辨率下高效预训练,并引入高分辨率基准测试集4KPro。该方法显著提升了高清场景下的表现和效率。