
OpenAI 深夜放大招!GPT-4o原生图像生成 API 正式开放,高清、可控、强编辑!
一句话形容:这是比web端更Pro的版本!

API换了一个新名字叫gpt-image-1
,这意味着,之前在 ChatGPT 里让无数人惊艳的图像生成能力,现在可以被全球开发者集成到自己的应用和工作流里了
但是:要使用 gpt-image-1
,开发者需要先完成 [组织验证,仅支持OpenAI官方支持的国家和地区验证]
根据OpenAI的说法上个月 ChatGPT 图像功能刚推出时,第一周就有 1.3 亿用户创作了超过 7 亿张图片。这次 API 开放的 gpt-image-1
,正是驱动 ChatGPT 图像体验的那个原生多模态模型
下面我给给大家详细解读一下这个API
API 版有啥不一样?
相比 ChatGPT 版本,API 版给了开发者更多精细控制的选项:
审核敏感度可调:通过 moderation
参数(可选 auto
默认 或 low
低限制)控制内容过滤的严格程度
平衡质量与速度:可以指定 quality
(low
, medium
, high
, auto
)来权衡生成速度和图像细节
输出定制化:支持指定图像尺寸(1024x1024
方形, 1024x1536
竖版, 1536x1024
横版, auto
默认)、输出格式(png
, jpeg
, webp
)、压缩率(jpeg
/webp
可设 0-100%),甚至背景透明 (background: 'transparent'
)!这对需要 P 图、做素材的场景简直是福音(透明背景建议 medium
或 high
质量)
gpt-image-1
核心优势:
✅ 高保真、更准确:图像质量和细节表现出色
🎨 视觉风格多样:能驾驭多种艺术风格
✏️ 精准图像编辑:强大的编辑能力
🌎 丰富世界知识:能理解并运用现实世界知识创作
✍️ 文字渲染更强:在图像中准确渲染文字的能力有显著提升。
生态合作:已有多家大厂和初创在用
OpenAI 展示了众多合作伙伴的早期应用案例,覆盖创意工具、电商、教育、企业软件、游戏等领域:
创意设计:Adobe (Firefly, Express)、Figma、Canva 都在集成,让用户直接在工具内生成、编辑图像,调整风格、增删物体、扩展背景等
adobe:

Figma:

营销与内容创作:Airtable 助力营销团队管理素材工作流;HubSpot 探索生成营销/销售资料;OpusClip Thumbnail 为 YouTube 创作者生成定制化缩略图;GoDaddy 尝试生成 Logo、去背景、生成社媒帖子
Airtable:

OpusClip:

效率工具:Gamma 每天生成超 500 万张 AI 图片用于演示和网站;Wix 将其集成到 AI 设计平台 Wixel
Gamma:

Wix:

电商:Photoroom 利用它推出 Product Beautifier、Product Staging 等工具,帮卖家快速生成专业商品图、场景图

虚拟形象与视频:HeyGen 用它增强虚拟人编辑;InVideo 用它改进视频中的文字生成和编辑控制

知识平台:Quora 将 gpt-image-1
设为默认图像模型,提升平台图像质量

生活服务:Instacart 测试用它生成食谱和购物清单的图片
API 核心功能一览
目前图像生成主要通过 Images API
提供(未来会支持 Responses API
):
图像生成 (Generations):根据文本提示 从零生成图像。可设置 n
一次生成多张
图像编辑 (Edits):
a.基于参考图生成:可传入一张或多张现有图片 作为参考,结合提示生成新图(例如,提供几个单品图,生成包含这些单品的礼品篮图)
b.局部修改 (Inpainting):上传原图和一张蒙版图 (mask
),蒙版的透明区域会被根据提示重新绘制,黑色区域保持不变。注意:prompt
需要描述完整的最终图像,而非仅修改区域。蒙版图需与原图尺寸格式一致,且带 Alpha 通道
模型选择:
虽然 API 也支持 DALL·E 2 (支持 Variations 功能) 和 DALL·E 3 (高质量),但 OpenAI 推荐使用 gpt-image-1
,因为它在指令遵循、文字渲染、细节编辑和利用世界知识方面更胜一筹。
成本
gpt-image-1
按 Token 计费,分为三部分:
【文本输入 Token : $5 / 1M tokens】
【图像输入 Token (用于编辑的参考图)|: $10 / 1M tokens|】
【图像输出 Token (生成的图像): $40 / 1M tokens】
实际换算下来,生成一张方形图的大致成本:
-
• Low Quality: 约 $0.02 (272 tokens) -
• Medium Quality: 约 $0.07 (1056 tokens) -
• High Quality: 约 $0.19 (4160 tokens),人民币超过1元了
不同尺寸和质量的 Token 数不同,具体可查阅文档。成本与图像尺寸、质量成正比
局限性提醒
虽然强大,gpt-image-1
仍有一些需注意的限制:
延迟:复杂提示可能需要长达 2 分钟处理
文字渲染:虽有改进,但精确放置和清晰度仍可能遇到挑战
一致性:跨多代生成保持角色或品牌元素的一致性有时会困难
构图控制:对于需要精确布局的场景,模型可能难以完全按指令放置元素
体验及图像生成指南
前往 [Playground]
https://platform.openai.com/playground) 体验
另外OpenAI提供了详细的API 图像生成指南
https://platform.openai.com/docs/guides/image-generation?image-generation-model=gpt-image-1
one more thing
Sam Altman 亲自发话:Plus 用户速率翻倍!
就在大家消化图像 API 消息的同时,OpenAI CEO Sam Altman 又在 X 上宣布了一个好消息:
“我们已将 ChatGPT Plus 订阅用户的 o3和 o4-mini-high 的速率限制提高了一倍。尽情享用吧!我们确实在努力听取反馈!”

他还提到,这背后是在速率限制、新功能发布和延迟之间做的艰难权衡,并表示 “GPU 正在路上,希望情况会变得更好”
参考:
https://openai.com/index/image-generation-api/
⭐
(文:AI寒武纪)