刚刚，OpenAI最强图像生成API上线，一张图1毛5！

新智元报道

编辑：桃子好困

【新智元导读】GPT-4o之后，OpenAI原生多模态图像生成模型API正式推出了，一张图低至0.02美元。新模型能够结合世界知识，生成更加符合上下文图像，质量更高，还支持多种功能自定义。

昨夜，OpenAI发布全新图像生成模型gpt-image-1，API向所有开发者开放。

这一次，他们直接把每张图的成本打到几美分。

对于低、中、高质量的方形图像，生成大约花费0.02美元、0.07美元、0.19美元。

gpt-image-1集成了三大核心功能：图像生成、图像编辑、图像变体（仅限DALL·E 2）。

与GPT-4o图像生成不同，gpt-image-1最大的特点，在于支持各种高级功能的定制。

比如，自定义输出图像的质量、尺寸、格式、压缩程度，甚至可选择是否需要透明背景，能够满足多样化创意需求。

它具备了强大的通用能力，不仅能够创作多种风格图片，还能精准遵循自定义需求。通过结合世界知识，生成更符合上下文的图像。

现在，你就可以在playground中使用gpt-image-1来快速迭代提示词和图像：

GPT-4o上线掀起全网吉卜力风潮，并在发布首周全球1.3亿用户，创作了超7亿图片。

gpt-image-1作为OpenAI全新一个原生多模态图像模型，随着API开放，将会在未来极大地释放人们创意。

效果一览

在官方API文档「探索」区，OpenAI放出了许多gpt-image-1生成图片的demo，效果非常惊艳。

接下来，就一睹为快吧。

一句话，让gpt-image-1展示出创建鳄梨酱所需的所有食材。

下面这张梦幻之境，可是用了一个「小作文」提示词才完成的。

再来看它创作的外星人Glorptak，有着凝胶状身体，半透明发光，非常可爱。

对于模特、电商行业来说，gpt-image-1将重塑创作方式。上传一张衣服图、一张人的照片，就能看到衣服上身的效果了。

橄榄油宣传图，也只需找一张背景图，gpt-image-1瞬间完成P图。

更神奇的是，上传一张房屋设计平面图，gpt-image-1就能将其变为3D效果，更加直观。

番茄酱广告，非常有视觉冲击力。

设计矿泉水的瓶身，也是多种风格拿捏。

生成超写实的3D图标，看着非常有质感。

gpt-image-1还能生成粗线条手绘风格图解，为回针缝制法每一步配上了简洁的说明文字。

上传一张CD模板图，让gpt-image-1生成金属乐队黑胶唱片。

还有各种纹理的防止图案，也是非常有创意。

还有动画分镜脚本——马匹跳跃循环序列，gpt-image-1可做到逐帧解剖要点。

上传独立流行音乐人的照片，一张演唱会门票直接设计好了。

自定义图像输出，精准创意

目前，OpenAI GPT Image API提供了丰富的自定义选项，让开发者完全掌控输出效果。

尺寸：支持多种分辨率，比如1024×1024, 1024×1536
质量：可选low，medium，high三种渲染质量
格式：文件输出格式
压缩：针对JPEG和WebP格式，可设置0-100%级别的压缩
背景：透明或不透明

生成图像

通过图像生成端点，仅凭一段文本提示，即可生成令人惊叹的图像。

可设置参数n ，一次可生成多张图像（默认情况下，API返回单张图片）。

from openai import OpenAIimport base64client = OpenAI()result = client.images.generate( model="gpt-image-1", prompt="Draw a rocket in front of a blackhole in deep space")image_base64 = result.data[0].b64_jsonimage_bytes = base64.b64decode(image_base64)# Save the image to a filewith open("blackhole.png", "wb") as f: f.write(image_bytes)

图像编辑

而图像编辑功能，可以让创意更进一步。通过图像编辑端点，你可以：

直接编辑现有图片
参考图像生成新图片：上传多张参考图像，然后生成新图
局部编辑（inpainting）：通过上传图像和蒙版，精准替换指定的区域

参考图像生成新图片

比如，上传四张礼品图片，生成一个包含所有礼品的精美礼物篮的图像。

from openai import OpenAIclient = OpenAI()result = client.images.edit( model="gpt-image-1", image=[ open("body-lotion.png", "rb"), open("bath-bomb.png", "rb"), open("incense-kit.png", "rb"), open("soap.png", "rb"), ], prompt="Generate a photorealistic image of a gift basket on a white background labeled 'Relax & Unwind' with a ribbon and handwriting-like font, containing all the items in the reference pictures")image_base64 = result.data[0].b64_jsonimage_bytes = base64.b64decode(image_base64)# Save the image to a filewith open("gift-basket.png", "wb") as f: f.write(image_bytes)

使用蒙版编辑图像（局部编辑）

你可以上传一个蒙版来编辑图像，蒙版中的透明区域将被替换，而黑色区域保持不变。

OpenAI建议，你可以使用提示来描述整个新图像，而不仅仅是被擦除的区域。

蒙版要求：

1. 图像和蒙版需要格式一致，尺寸相同，大小不超过25MB。

2. 蒙版需包含Alpha通道，在图像编辑工具中保存蒙版时，务必勾选「保存Alpha通道」。

from openai import OpenAIclient = OpenAI()result = client.images.edit( model="gpt-image-1", image=open("sunlit_lounge.png", "rb"), mask=open("mask.png", "rb"), prompt="A sunlit indoor lounge area with a pool containing a flamingo")image_base64 = result.data[0].b64_jsonimage_bytes = base64.b64decode(image_base64)# Save the image to a filewith open("composition.png", "wb") as f: f.write(image_bytes)

在自定义中，还需要注意的包括：

方形图片以标准质量生成的速度最快，默认大小是1024×1024。

Image API返回base64编码的图像数据，默认格式是png ，但你也可以请求jpeg或webp。

如果使用jpeg或webp，还可以指定output_compression参数来控制压缩级别（0-100%）。例如， output_compression=50就是把图像压缩50%。

此外，gpt-image-1支持透明背景。要启用透明度，需将background参数设置为transparent。

from openai import OpenAIimport base64client = OpenAI()result = client.images.generate( model="gpt-image-1", prompt="Draw a 2D pixel art style sprite sheet of a tabby gray cat", size="1024x1024", background="transparent", quality="high",)image_base64 = result.json()["data"][0]["b64_json"]image_bytes = base64.b64decode(image_base64)# Save the image to a filewith open("sprite.png", "wb") as f: f.write(image_bytes)

模型对比

虽然gpt-image-1是目前OpenAI最强大的多模态模型，此前推出的DALL·E 2和DALL·E 3则是专为图像生成设计的模型，各有所长。

根据不同需求和场景，开发者可灵活从中选用这些模型API。

gpt-image-1使用同样是按Token计费，文本和图像的Token各有不同的价格：

文本输入Token：5美元/百万token
图像输入Token：10美元/百万token
图像输出Token：40美元/百万token

如前所述，在实际应用中，对于低、中和高质量的方形图片，每生成一张图像的费用大约分别为0.02美元、0.07美元和0.19美元。

从创意到商业无限可能

OpenAI全新Image API的推出，将为各行各业解锁更多创意魔法。

目前，创意工具、电商、教育、企业软件、游戏等行业的领先企业和初创公司，已经将图像生成集成到他们的产品和服务中。

Adobe的创意工具，包括Firefly和Express，将通过gpt-image-1为创作者提供选择和灵活性，方便他们实验不同的美学风格。

Figma正在利用gpt-image-1从简单的提示词生成和编辑图像，使设计师能够快速探索创意并直接在Figma中进行视觉迭代。

HeyGen正在使用gpt-image-1来增强头像创建，特别是在平台内改善头像编辑。

Photoroom正在使用gpt-image-1帮助在线卖家从单一产品照片中瞬间创建工作室级别的视觉效果、生活场景和模特展示图。

此外，Canva已将gpt-image-1集成到Canva AI和Magic Studio工具中，进一步扩展设计生成和编辑能力。

简单的草图，gpt-image-1即可将其转化为精美图形元素。与此同时，它还支持高保真的视觉编辑，让2.3亿用户能够用全新方式将创意变为现实。

专为设计logo而生的GoDaddy，通过集成gpt-image-1，可以轻松创建编辑Logo，去除背景并生成专业字体设计。

借助GoDaddy Airo，创意者通过提示即可生成原创产品和品牌内容，并打造体现自身品牌个性的社交媒体和营销素材。

还有HubSpot通过OpenAI图像新模型，有望彻底革新客户制作高质量社交媒体、邮件营销以及落地页图片的方式，无需专业设计经验也能轻松实现。

Instacart正在测试如何利用API生成用于菜谱和购物清单的图片，以提升用户体验。

创作个性化视频invideo，在集成gpt-image-1后，将支持更强大的文本生成、精细化编辑控制和高级风格指导，进一步丰富了用户的视频创作体验。

（文：新智元）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

新智元报道

【新智元导读】GPT-4o之后，OpenAI原生多模态图像生成模型API正式推出了，一张图低至0.02美元。新模型能够结合世界知识，生成更加符合上下文图像，质量更高，还支持多种功能自定义。

发表评论 取消回复

发表评论取消回复