视觉模型落地:AI打工,干活全自动

AI 在字节发布的豆包1.5深度思考模型中应用了一项视觉理解模型,能支持对单目标、多目标等进行边界框或点提示定位,并支持3D定位。该模型已广泛应用于各类巡检商业化场景中。通过此技术,用户可以将图交给它识别所有寿司盘的位置,并输出坐标信息。

字节推豆包1.5深度思考模型,PK阿里QWQ-32、Deepseek R1结果如何?

近日,字节跳动发布豆包1.5深度思考模型,该模型在推理能力、速度和多模态方面实现了突破性升级。其参数量为200B,激活参数仅为20B,具有低延迟(<20ms)的优势。通过多项权威基准测试,该模型在数学推理和编程竞赛方面表现出色,并展示了其对图片的视觉推理能力。

在线教程丨字节开源 InfiniteYou 图像生成框架,实现高保真面部特征迁移

InfiniteYou 是字节跳动团队推出的身份保持图像生成框架,通过扩散变压器技术确保面部特征在不同场景中的保留。其核心创新InfuseNet提升了身份保真度,并解决了图文对齐偏差和生成质量不佳的问题。HyperAI超神经提供教程及Demo演示。

字节开源AI图像模型UNO:一个模型统一多个任务,开启更强大的可控生成能力

UNO 是字节跳动开源的研究成果,是一个可以同时支持单主体和多主体图像生成的AI模型。它解决了当前AI图像生成领域的数据扩展和主体扩展问题,并展示了强大的泛化能力,能够适应多种应用场景。