视觉模型落地:AI打工,干活全自动
AI 在字节发布的豆包1.5深度思考模型中应用了一项视觉理解模型,能支持对单目标、多目标等进行边界框或点提示定位,并支持3D定位。该模型已广泛应用于各类巡检商业化场景中。通过此技术,用户可以将图交给它识别所有寿司盘的位置,并输出坐标信息。
AI 在字节发布的豆包1.5深度思考模型中应用了一项视觉理解模型,能支持对单目标、多目标等进行边界框或点提示定位,并支持3D定位。该模型已广泛应用于各类巡检商业化场景中。通过此技术,用户可以将图交给它识别所有寿司盘的位置,并输出坐标信息。
作者|子川来源|AI先锋官新视觉语言模型Qwen2.5-VL-32B开源,相比72B规模更小但表现不俗。它在多个测试中击败了包括Gemma 3 27B在内的同尺寸模型。
阿里云、字节跳动等纷纷推出视觉理解模型降价策略,其中阿里云Qwen-VL-Plus降价81%,一元钱可处理600张720P图片,意在推动应用生态发展及吸引客户使用云计算服务。
字节跳动在近期的发布会上发布了豆包视觉理解模型和3D生成模型,并宣布全线降价。该公司的多款大模型产品也迎来更新,包括通用模型、音乐模型及文生图模型等。发布会吸引了外界对AI To B市场的关注,认为未来可能成为互联网巨头的竞争焦点。
国内月活超过千万的 AI 应用中,豆包用户量达到5998万,位列全球第二。近日发布视觉理解模型,具备内容识别、推理和创作能力,并大幅降低价格战优势明显。