一键批量出图,人物一致性逆天,豆包文生图新功能炸了

豆包发布CreationAgent v1.0 Beta,新增20张差异化图像输出能力、意图理解提升及多图一致性等功能。支持批量生成风格统一图片、表情包等,并能精准呈现复杂场景细节和人物神态。但存在部分修改需求仍需人工辅助的问题。

视觉模型落地:AI打工,干活全自动

AI 在字节发布的豆包1.5深度思考模型中应用了一项视觉理解模型,能支持对单目标、多目标等进行边界框或点提示定位,并支持3D定位。该模型已广泛应用于各类巡检商业化场景中。通过此技术,用户可以将图交给它识别所有寿司盘的位置,并输出坐标信息。