“没有AI味”的Flux.1新模型,现可以免费试用

不圆 发自 凹非寺
量子位 | 公众号 QbitAI

AI生图,但是没有AI味,可能么?

一款全新、可编辑、照片级的AI生图模型FLUX.1 Krea [dev]现已发布,可在Krea Edit上免费试用

官方介绍该模型“没有AI感,没有过曝的高光,只有自然细节。”

主打一个真实。

新模型是Krea 1的开源权重版本,它被训练的目标是生成更真实、更多样化的图像,这些图像不包含文生图生成中常见的过度饱和纹理。

我们实测了这款模型,看看下面这张拼图,可以猜一下哪张是FLUX.1 Krea [dev]生成的。

答案马上揭晓~

模型表现

为了测试FLUX.1 Krea [dev]是否“没有AI感”,我们将从光学真实性、纹理连续性、语义一致性、透视、动态模糊等方面入手,并与真实的摄影图片进行对比。

一起来看一下。

光学真实性

AI作图容易出现“塑料感”或死白过曝的问题,难以区分不同的材质。

我们先在图虫网找到了一些主体为不同材料的摄影图片,并根据图片的内容设置提示词,把提示词输入FLUX.1 Krea [dev]进行文生图,验证模型是否理解物理光学规律

There is a row of stainless steel pipes neatly arranged at the bottom, and three horizontally placed stainless steel pipes at the top, with the pipe openings facing outward at a 45° angle to the right.

刚刚的那张拼图就是由以上的提示词生成的,正确答案是下图,猜对了么?

FLUX.1 Krea [dev]会一次性输出4张图(对,像豆包一样),我们挑选了相对真实的那张作为展示。

可以看到,FLUX.1 Krea [dev]在原有提示词的基础上,主动添加了锈点的特质——这确实让材料看上去更加真实。

但也并非十全十美,例如下图中圈出来的部分,仍存在一些难以解释的结构。

The water is calm, a gentle and transparent blue with a few waves.

同样的,上图为真实摄影,下图为FLUX.1 Krea [dev]的最优输出。

可以看到,FLUX.1 Krea [dev]对于波浪的理解比较浅显,看起来有些重复、失真,网状波纹光看起来不像是在水底,反而像是浮在水面上。

纹理连续与语义理解

AI容易出现常见的重复图案或断裂,对于复杂的真实纹理,能否自然过渡成了一个难题。

为此,我们以针织面料和植物为例,测试一下FLUX.1 Krea [dev]对微观结构的理解能力

以下拼图的上图均为真实摄影,下图为FLUX.1 Krea [dev]的最优输出。

Texture of green twill stitch knitted fabric, top view, the fabric is slightly uneven.

就微观结构的连续性而言,FLUX.1 Krea [dev]的输出并无明显问题。

但对于uneven(不平整)的呈现还是比较规律,且似乎并不能理解twill(斜纹针)的含义。

There are some water droplets on the back of the Plumeria rubra leaves.

上图为鸡蛋花(Plumeria rubra,华南常见树种)叶子的背面,有水珠。

根据输出结果可以看出,FLUX.1 Krea [dev]难以掌握准确的植物类型,甚至没能很好地理解back(背面)的要求。

(以下是此次输出的全部四张图片,均出现同样问题。)

就材质而言,水珠的效果也有些“AI味”,过于均匀、单调。

透视与动态模糊

生成多物体交错场景可以测试文生图模型对空间关系的理解,还是仅能简单拼接训练样本。

而生成运动物体可以验证模型对时间维度的模拟能力(检查模糊方向是否符合物理规律)。

There is a blanket on the grass, with three books stacked on top of it, and a lilac flower in front of it partially blocking the books.

可以看到,虽然对花朵的理解不太准确,但整体的拟真表现还算不错,甚至能够做到让前景和背景都呈现出模糊的效果(浅景深)。

乍一看没什么大问题。

A silver car was driving from left to right at about 70 miles per hour, with the city receding behind it.

且不说左右不分的问题(并不是全部输出都左右不分,但这张图效果相对真实),FLUX.1 Krea [dev]的输出很难看出画面主体运动的趋势。

背景的模糊没有方向性,更像是散光,轮胎上有反光这点也很奇怪(吧?)。

物理规则

通过输入一些“反常识”的、逻辑矛盾的内容,可以判断模型是否优先遵循物理规律,还是单纯拟合数据。

At noon, the sun was so strong that an oak tree cast no shadow at all in the sun.

可以看出,即使提示词为cast no shadow at all(完全没有影子),FLUX.1 Krea [dev]能够遵循物理规则,保持影子的存在。

但如果提示词为“鱼在天上飞”这类幻想性比较强的文本,输出将有所不同:

The weather was sunny, the sky was blue, and some goldfish were swimming above the city.

虽然金鱼像贴图一样,但可以看出,在这种时候FLUX.1 Krea [dev]就会跳出既有的物理规律,生成的图片也缺乏真实感。

毕竟本来就是不可能的事。

其它玩法

根据页面上已有的功能,似乎还可以做出一些别的尝试。

比如可以选择作图的风格(image style),或对原有图像进行调整(image prompt):

还可以调整生成图片的比例:

我们试着用奥特曼的一张照片作为参考,提示词为“被美元包围”,“表情自信”。

注意到在网页内还可以调整参考比例。

默认参考为0.4,我们使用了0.5作为尝试,风格参考也是0.5,输出结果如下:

比较大的问题是它似乎无法很好地把人物特征抓出来,呈现出来的结果让人完全认不出这是谁。

选择了油画风格作为参考,却让画面显得很脏。

所以在下一次测试中,我们取消了参考风格,把参考图像的比例调整至最大(1),提示词相同。

输出的结果如下:

把提示词中的“The person in the photo”改成“Samuel Harris Altman”,结果也并没有多大改变:

由此大概可以得出,FLUX.1 Krea [dev]并没有办法识别出人物特质。

(它的数据库里可能也没有奥特曼。)

一个“有主见”的文生图模型

简单总结,它在光影和自然细节上做得确实很不错,属于乍一看看不出什么大问题的水平,但对于形象的把握、时间和空间结构的理解上还有待提升。

依然会和大多数的AI作图工具一样,出现较多的重复,实际情况往往会更加复杂。

当提示词比较明确是某种植物或者某个具体个体的时候,它并没办法很好地生成准确内容,哪怕有图像参考也是如此。

不过嘛,如果“AI味”指的仅仅是光影和材料的质感,我想它确实做到了。

官方对FLUX.1 Krea [dev]的介绍是:一个“有主见”的文生图模型。

FLUX.1 Krea [dev]在人类偏好评估中仍超越了以往的开源文生图模型,并与FLUX1.1 [Pro]等闭源解决方案表现相当。

此外,它在架构上与FLUX.1 [dev]生态系统兼容,并可作为灵活的基础模型,用于下游应用的定制。

虽然在介绍说是免费试用,但一个账号每天也有固定额度。然而,根据我们的实测体会,似乎不是由图片数目决定的。

这点也引发了部分网友的不满:因为一次性默认输出4张图,可能会“浪费”额度。

不过,趁着它还有免费额度,或许也值得一试。

(PS:可以直接用邮箱注册新账号,额度就更多了,嘻嘻)

(文:量子位)

发表评论