挑战GPT-4o!AI文生图惊现黑马,国产团队HiDream如何逆袭?


作者 | 王萌
编辑 | 卷毛


AI的“神仙打架”从未停歇,尤其在文生图这个烧钱又内卷的赛道。

但当所有人的目光都聚集在OpenAI、Google、Midjourney等“头号玩家”时,一个相对低调的中国团队,却悄然登上了多个AI模型能力榜单前列,引起AI圈热议,它就是HiDream

4月21日排名
海外论坛Reddit网友对HiDream的评价

而且HiDream作为榜单上为数不多的开源模型,在Hugging Face等开发者社区上同样非常热门。

Hugging Face趋势排名,截图时间4月21日

这就不禁让人好奇:这款来自国内团队的开源模型,其实力究竟如何?我们将HiDream-I1 Dev与GPT-4o及同样表现出色的SeeDream 3.0(即梦)以及广受欢迎的Recraft V3进行正面对比,看看它是否真的具备挑战顶级模型的能力。


与巨头硬碰硬,HiDream的底气在哪里?

我们的测试一共分为五组,涵盖了对提示词理解能力、写实风格还原、人物动态与细节、创意表达、材质真实性、光影与景深控制、文本能力等多方面的考察,通过一系列较为典型的提示词信息,观察模型生成图片的效果。

测试一:复杂场景理解、写实与材质表现

提示词:一张高度写实的照片,一个凌乱但有序的艺术家工作室。阳光透过一扇大窗户射入,照亮了空气中飞舞的尘埃。一张磨损的木质工作台上,放着一个未完成的粘土雕塑,旁边散落着各种雕刻工具(凿子、金属刮刀)。附近放着一个高度抛光的铬合金茶壶,扭曲地反射着周围的景象和窗外的绿树。背景的书架上摆满了颜料罐和画笔。强调不同材质的质感(粗糙粘土、光滑金属、旧木纹、玻璃光泽),光线柔和而有方向感。



第一个测试属于牛刀小试,测试重点在于:对复杂场景布局、多物体关系、光影氛围的理解、同时渲染多种差异巨大的材质(粘土、金属、木材、玻璃)、照片级真实感和细节刻画。

从实测结果不难看出,各个模型在这些方面都做得不错,但细看还是能看到一些差别。例如GPT-4o没有做出提示词中要求的“空气中飞舞的尘埃”,且桌面非常整齐,“整齐”多于“凌乱”,HiDream书架不太明显,没能很好地表现出“书架摆满了颜料罐和画笔”。

测试二:创意概念、特定艺术风格模仿与氛围营造

提示词:一个设定在巨大空心古树内部的熙熙攘攘的市场场景。长着昆虫翅膀的奇幻小生物们在摊位上售卖发光的水果和闪光的布料。建筑风格融合了有机的树根和精致的精灵风格雕刻。采用“吉卜力工作室动画(Studio Ghibli animation)”的鲜明视觉风格进行渲染,注重鲜艳的色彩、柔和的光线和充满奇幻感的氛围。



这项测试的重点在于:理解并视觉化高度想象力的概念;准确模仿指定的、具有强烈辨识度的艺术风格;营造特定的情绪和氛围;处理多角色和环境细节的一致性问题。

虽然各个模型都能完成创意理解和风格模仿的任务:GPT-4o生成图像中的人物更像宫崎骏动画中的角色,色彩柔和但整体偏绿;HiDream忽略了“巨大空心树”的设定,且出现了一定程度的脸部崩坏;只有即梦表现出了发光的水果和闪光的布料,综合表现更好。

测试三:人物动态、细节捕捉与极端光影控制

提示词:特写动作镜头,一位厨师戴着黑色薄手套的双手,正在一个燃着熊熊火焰的炒锅中快速颠勺,抛起混合着五颜六色蔬菜的食材。微小的油滴和酱汁瞬间悬浮在空中。厨师的脸上(部分可见或完全可见)表情高度专注。需要捕捉到手和蔬菜的动态模糊效果,同时保持炒锅中的火焰和厨师表情的清晰。采用高对比度的戏剧性舞台式打光。



这轮测试重点在于:准确描绘人物动态(尤其是手部);捕捉高速运动的瞬间细节(油滴、模糊效果);控制复杂且对比强烈的光影环境。

由于测试难度提高了一些,这轮各个模型在手部细节、动态捕捉(如火焰、油滴)等方面上都出现了不同程度的问题,即梦生成的图片效果相较其他三个更好一些。

测试四:排版设计、文字生成与应用场景模拟

提示词:设计一本名为‘Cosmic Whispers’(宇宙低语)的科幻小说封面。主视觉是一个抽象的、由相互缠绕的发光能量触须构成的图案,连接着两个跨越深空星云背景的风格化剪影人形。书名 ‘Cosmic Whispers’ 使用简洁现代的无衬线字体,醒目地放在封面顶部。作者名 ‘A.I. Genesis’ 使用稍小字体放在底部。整体呈现专业、引人入胜的平面设计感。



这项测试测试的重点是:准确生成指定英文文字(包括大小写和内容);理解并执行排版布局要求(位置、字体风格);结合图像和文字创造出符合特定类型(科幻小说封面)的设计美感;模拟实际应用场景。

四个模型都能很好地完成封面任务,并且呈现出了提示词要求的线条、人形剪影,但细节处还是能看到一些区别:只有即梦按照提示词的要求准确区分出了标题和作者的英文大小写;Recraft和即梦模拟了书籍封面的呈现形式;GPT-4o封面右下角出现了第三个人。

测试五:微距细节、特殊材质与精确控制

提示词:微距特写摄影:一片奇幻生物的虹彩(iridescent)鳞片,色彩随光线角度变化。几颗完美的、微小的露珠附着在鳞片上,折射着周围的光线,显现出迷你的彩虹棱镜效果。背景是柔和失焦的深绿色叶子。要求极高的细节锐度,浅景深效果,焦点精确地落在露珠和鳞片的纹理上。



测试重点: 特殊光学效果材质(彩虹、水珠折射);对摄影参数(景深、焦点)的精确控制能力;极端细节的刻画能力(微距级别);处理重复性精细纹理。

HiDream能够生成微距效果,并在一定程度上表现了鳞片的纹理和露珠,但在精确还原“虹彩”随光线变色的效果上可能不够理想,需要更精细的提示词引导;Recraft更偏写实风格,在表现水珠折射上也更偏保守;相较而言即梦呈现的图像更接近提示词要求。

其他测试案例

除了这些针对具体能力的测试以外,我们还尝试了更多不同风格的案例,下面是HiDream的生成效果。

提示词:一幅以爱德华·霍普风格创作的画作,描绘了深夜时分,一个人独自坐在小餐馆柜台前的场景。画面的氛围静谧而孤独,充满内省的意味,光影对比强烈,长长的阴影投射在房间里。要着重强调城市中的孤独感。



提示词:一张高质量的产品渲染图:一个哑光黑色的无线耳机充电盒,略微打开,露出里面的白色耳机。充电盒放在一块有质感的灰色石头上。充电盒盖子内侧(如果可见)或旁边标签上印有小小的、清晰的logo文字 ‘Meng’. 整体光线柔和,突出产品的精致感和材质(哑光塑料、光滑石头)。



提示词:设计一个现代、简约的Logo,用于名为 ‘NewRank Tech’ 的环保科技公司。Logo应包含一个风格化的叶子图案,并与抽象的电路/芯片图案巧妙融合。主要使用蓝紫色和橙色。



提示词:这是一张写实风格的照片,一匹马从左向右在一片广阔而平静的海面上飞奔。画面精准地捕捉了溅起的水花、水面上的反射,以及马蹄下细腻的涟漪图案。马的动作被适度夸张,而周围的环境则保持静止和宁静,以此突出马的力量感。整体构图简洁而富有电影感,采用宽广的全景视角,展现了远处的地平线。通过大气透视营造出深度感。在浩瀚的海洋面前,马的身影被放大,但依然显得渺小,进一步强化了对比效果。



提示词:一只可爱的猫睡在书架上,油画风格。



提示词:一座现代化工业工厂的低多边形风格鸟瞰图,建筑为白色或浅灰色,结构包含大型主厂房、储罐、烟囱、管道、出入口和卡车。环境清新,有绿树、马路、水渠,整体构图有条理,风格极简且色彩明亮,适合用于数字孪生可视化或工业动画展示。


总体而言,HiDream在图像、写实风格下的质感表现、复杂场景的细节刻画等方面确实具备了与一线模型掰手腕的实力,站稳第一梯队是完全没有问题的。

而且HiDream支持输出4K高清图像,出图速度快,还可以直接挂进内容生产链路,例如ComfyUI等。


值得注意的是,HiDream基于中国本土打造,在使用较为中性的提示词生成包含人物面部的图像时,比较倾向于生成亚洲人,在审美上也比较贴近国人审美。

连续20次使用中性描述“A portrait photo of a person.(一个人物肖像图片)”测试

此外,HiDream在生成中文方面却表现欠佳,虽然支持中文提示词,但使用英文提示词效果更佳。

HiDream生成的中文

此外,HiDream对一些较为模糊、抽象的提示词理解能力有待提高,在生成某些需要独特创意或特定氛围的图像时,表现可能不如其他模型。

例如前文“测试五”中,HiDream生成的图片在光学效果、摄影效果等方面表现尚可,但需要多次额外强调细节才能生成理想中的彩色鳞片特写。


综合而言,虽然HiDream文生图能力达到了第一梯队的水平,但缺点也非常明显。

优点:
  • 高清晰度与细节:支持输出4K高清图像,分辨率高,细节丰富。
  • 出色的质感还原: 对于不同材质的物理属性和光泽反射模拟得比较准确,能够很好地理解并执行复杂提示词汇总的元素和要求。
  • 画面质量稳定: 生成质量稳定,出图速度快,还可以直接挂进内容生产链路(例如前文提到的ComfyUI)。
  • 本土化优势: 在亚洲面孔的还原上可能更贴近国内审美。

缺点:
  • 缺乏特色:虽处于文生图第一梯队,但并没有在某一方面表现最为突出。
  • 文本能力不强:无法生成中文,虽支持中文提示词,但使用英文提示词生图效果更佳。
  • 抽象提示词理解能力有待提高:在生成某些需要创意或特定氛围的图像时,表现不如其他模型。
  • 人物动态略显僵硬

左为HiDream,右为即梦

值得一提的是,官方为模型提供了落地产品vivago.aihttps://vivago.ai/home)。但我们在测试中发现,vivago.ai实际出图能力可能弱于通过第三方工具调用其开源模型。鉴于我们评测使用的是由Recraft调用的HiDream-I1 Dev,vivago.ai使用的模型很可能使用是参数量更小的HiDream-I1 Flash模型。而且vivago.ai生成的图片带有水印。

使用vivago.ai生图需要付费去水印
“测试三”中,相同的提示词在vivago.ai和Recraft调用HiDream模型的文生图表现对比,vivago并没有做到我们要求的“吉卜力风格”


小团队+开源,黑马的“突围”之道?

当我们看到HiDream在AI模型榜单上的亮眼表现时,也有很多人注意到这样一个问题——为什么在文生图这个领域,我们看到的大多是闭源的商业模型,而非开源项目?

答案并不复杂,主要归结于高昂的训练成本与资源壁垒,以及主流的商业模式选择

训练一个顶级的文生图模型,既包括大规模GPU集群的算力成本、海量高质量图像与数据的获取成本,以及顶尖算法工程师团队的研发成本。这种“烧钱”的特性,天然地将大多数资源有限的玩家挡在了门外,使得大型科技公司或资金雄厚的AI独角兽占据了主导地位。

同时,这些投入巨大的公司,自然倾向于选择能够快速回收成本并实现盈利的商业模式,所以我们常常可以看到厂商通过订阅付费墙、API调用服务等形式,将模型本身作为核心资产进行商业变现。

在这样的背景下,小团队面临的困境显而易见。它们既缺乏与巨头抗衡的资金和资源去“军备竞赛”,又难以在成熟的闭源商业模式下找到差异化的生存空间。许多有潜力的技术团队可能因此在基础模型层面望而却步,转向更轻量级的应用层开发。

所以HiDream的故事就显得尤为独特,这家成立于2023年3月、来自中国合肥的公司,依托中科大的人才资源,由一支50人的团队在短时间内拿出了一款在多项基准测试和实际效果上能与顶级模型掰手腕的产品。

更关键的是,面对行业主流的闭源模式,HiDream却选择了开源,关于其中原因,CEO梅涛在此前接受甲子光年采访时表示:

我们希望通过开源的方式,让别人踩在我们的肩膀上不断前进……图片模型不是我们商业化的终点,我们希望通过开源模型把社区建设得更好……现在很多大模型公司转向开源一方面是被倒逼的,另一方面他们过去忽视了开源社区的品牌价值和生态影响力。


显然,HiDream意在通过文生图模型作为切入口,凝聚更多开发者和用户,为将来可能的视频生成等更复杂的领域构建生态护城河,形成一种经典的“以开放换未来”的打法。

实际上,这样的故事在AI行业已经出现太多太多,例如之前智谱开源的文生图模型CogView4等。近期OpenAI尝试打造的AI社交平台,在一定程度上也是为了通过打造社群来抢数据、抢流量。

在Recraft上使用HiDream-I1模型

值得一提的是,HiDream最新开源的模型都已经完成了国产GPU的适配,如果能实现算法与硬件的深度协同优化,可能探索出一条独特的软硬结合发展路径,为国产AI软硬件生态的建设提供一个正向循环的案例。

当然,这种开源模式也会面临一些挑战,例如怎样在开源的同时找到可持续的商业模式?对此,HiDream.ai公司CTO姚霆在此前接受采访时是这样回答的:

我们不需要等到基础模型达到100分才去做应用。在现有的基础模型能力之上,如果你能找到真正解决用户痛点的场景,并在应用上做得很深,真正做到端到端的95分以上,用户就会买单。


显然HiDream采取了一种较为务实的策略,即追求基础模型能力的同时,也强调找到合适的应用场景,我们在其体验网站上,也可以看到很多附加的小功能,例如AI试衣、Logo设计、AI人像等。

虽然其中很多功能仍处于早期阶段,实际效果和稳定性还有提升空间,但也不失为打通模型与应用的一种好的尝试。


HiDream团队不久前还曾发文表示,团队另有支持交互式图像编辑的模型HiDream-E1也将开源,未来还将发布多模态Agent产品,或许HiDream还有更多惊喜在等着我们。

HiDream-E1的图像编辑效果

不难看出,HiDream的案例为我们展示了这样一种可能:小团队凭借在特定技术点的突破,结合开源策略,快速建立影响力,并围绕核心技术构建应用生态。 

这种模式会在未来孕育出更多挑战巨头的“AI黑马”吗?欢迎在评论区分享你的答案。

体验地址:
https://vivago.ai/home
模型地址:
https://huggingface.co/HiDream-ai/HiDream-I1-Full
代码仓库:
https://github.com/HiDream-ai/HiDream-I1





(文:AI新榜)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往