学术
CVPR 2025 Oral DiffFNO:傅里叶神经算子助力扩散,开启任意尺度超分辨率新篇章
本文提出了一种名为 DiffFNO 的方法,利用神经算子和扩散模型解决超分辨率问题。它通过加权傅里叶神经算子、门控融合机制和自适应 ODE 求解器实现了高精度和快速推理,超越了现有技术。
谷歌NotebookLM终于说中文了!这可是最火的大模型播客产品
NotebookLM 现在支持中文播客,成为多语言AI知识助手。它能将文本、视频等内容转化为引人入胜的AI播客,帮助用户整理信息并提高效率。
CVPR 2025 如何稳定且高效地生成个性化的多人图像?ID-Patch带来新解法
本文提出ID-Patch方案,用于解决多人图像生成中的身份特征泄露问题。通过ID Patch将身份特征转化为小尺寸RGB图像块,精确指定每个人的位置,并与文本提示共同输入增强人物面部真实性。实验结果显示其在身份还原和位置匹配上表现优秀,且生成效率快。