字节开源新生图模型:一个模型统一所有生图任务,多主体融合效果SOTA
字节团队提出UNO模型,能处理多主体图像生成任务。该模型基于FLUX改进,解决了数据可扩展性和主体可扩展性问题,并在DINO和CLIP得分上达到SOTA水平。
字节团队提出UNO模型,能处理多主体图像生成任务。该模型基于FLUX改进,解决了数据可扩展性和主体可扩展性问题,并在DINO和CLIP得分上达到SOTA水平。
字节团队与中山大学合作提出的 ParGo 模型,通过融合全局视野和局部细节来高效连接视觉特征和语言模型(LLM),在多项基准测试中表现优异,并被选为 AAAI 2025 的入选论文。
字节团队与中山大学合作提出的ParGo模型通过巧妙融合全局视野和局部细节,在多模态大语言模型中表现出色,成功入选AAAI2025。ParGo采用Partial-Global Perception Block和Cascaded Partial Perception Block模块,结合全局视角和局部细节处理视觉特征,有效提升了LLM的效果。