CVPR’25|一步推理高质量图像!用于蒸馏单步文生图扩散模型的时间无关统一编码器架构

本文提出时间无关统一编码器Loopfree,通过1步Encoder和4步Decoder实现单步推理的多步生成性能。克服了扩散模型所需几十步推理的问题,提高效率的同时保持高质量结果。

尝试终结Attention Sink起因的讨论

文章提出Transformer中的Attention Sink现象源于模型需要Context Aware的Identity Layer,即注意力块需在某些情况下保持恒等变换。该假设通过首个token的value接近0、深层解码更明显、非归一化注意力和门控机制消除sink等多个实验证据支持,并解释了这一现象的原因。

西湖 AGI Lab 发布 Detail++:多分支细节注入重塑复杂 Prompt 文生图体验

西湖大学 AGI Lab 推出 Detail++,无需训练即可显著提升复杂 Prompt 场景下的图文一致性与细节还原。通过分层子提示、渐进注入和注意力共享策略,Detail++ 能够有效避免属性溢出、错配及风格混合问题。