Flux Kontext Dev发布,免费开源一句话P图的时代到来了!
Flux Kontext Dev终于发布开源版本支持一句P图功能,但需要至少20G显存。本文详细介绍了如何使用基础版和带DeepSeek中文翻译版工作流进行操作,并分享了加载模型、处理图片的基本步骤以及各种常见功能演示,同时提供了官方提示词技巧和解决常见问题的方法。
Flux Kontext Dev终于发布开源版本支持一句P图功能,但需要至少20G显存。本文详细介绍了如何使用基础版和带DeepSeek中文翻译版工作流进行操作,并分享了加载模型、处理图片的基本步骤以及各种常见功能演示,同时提供了官方提示词技巧和解决常见问题的方法。
抖音内容技术团队开源了ContentV,一种高效训练视频生成模型的方案,在有限资源下取得了与现有主流方案相近的生成效果。
OpenAI的GPT-4o展示了顶级图像理解与生成能力。BLIP3-o采用自回归+扩散框架,研究者对比了三种设计选择,并最终选择了CLIP + Flow Matching方案和顺序训练策略构建BLIP3-o模型。
AI视频生成模型通义万相2.1成功制作出多个复杂汉字、英文单词以及包括‘摸鱼一天 快乐无边’、中世纪真人写实风动画等在内的多种风格的视频内容。通过采用VAE与DiT架构协同发力、超长序列训练上的突破和数据与评估双轮驱动的技术创新,实现了对无限长1080P视频的高效编解码,并在视觉质量和运动质量方面提升模型性能。