扩散模型
GPT-4o图像生成的秘密,OpenAI 没说,网友已经拼出真相?
GPT-4o 图像生成引起了广泛兴趣和猜测,OpenAI仅发布系统卡附录详细评估、安全和治理。网络上流传多种猜想及逆向工程猜测其可能采用自回归+扩散或非扩散的自回归生成方式。
单张照片生成360°3D场景,支持灵活视角漫游|人大&北师大&字节
FlexWorld团队提出一种新方法,通过合成和整合新的3D内容逐步构建灵活视角的3D场景。该方法结合了微调的视频到视频扩散模型和几何感知的3D场景扩展过程,能够有效生成大幅度相机变化下的高质量3D场景。
爆火Block Diffusion引发LLM架构变革?自回归+扩散模型完美结合 ICLR 2025
散模型的优势,解决了现有扩散模型生成长度受限、推理效率低和生成质量低的问题。通过块状扩散实现任意长度
无需百卡集群!港科等开源LightGen: 极低成本文生图方案媲美SOTA模型
LightGen 是由香港科技大学 Harry Yang 教授团队联合 Everlyn AI 和 UCF 提出的一种新型高效图像生成模型,旨在解决主流生成模型依赖大量数据和计算资源的问题。论文提出通过知识蒸馏和直接偏好优化策略,在有限的数据和计算资源下实现了高质量图像的生成,并在多个实验中展示了与 SOTA 模型相当甚至超过的性能表现。
鸽了两年放大招!稚晖君发布灵犀X2,上演“自行车杂技”+“葡萄缝针”神技,比人还会演
智元 X-Lab 发布灵犀 X2 具身智能机器人,具备运动控制、交互智能等能力。采用强化学习策略和多模态感知模型,实现高效协同作业、任务分解与精细动作序列生成。
CVPR 2025|北大开源多模态驱动的定制化漫画生成框架DiffSensei,还有4.3万页漫画数据集
DiffSensei 是首个结合多模态大语言模型(MLLM)与扩散模型的定制化漫画生成框架,通过创新机制实现角色控制、布局精准及动态叙事。该框架支持从文本到漫画的高效转换,并发布首个专为漫画生成设计的数据集MangaZero,提升角色一致性、文本跟随能力和图像质量。
不要自回归!扩散模型作者创业,首个商业级扩散LLM来了,编程秒出结果
首个商业级扩散大型语言模型Mercury发布,每秒生成超过1000个token,性能和效率显著提升。相比现有自回归LLM,其速度提高了5到10倍,同时保持了高精度。