字节跳动
字节重磅开源Agent UI-TARS-1.5,全面达到SOTA,超越OpenAI 和Claude!
,我就震撼了
这哥们不仅
能操作GUI界面
还能
玩游戏
?
还能
挖矿
?
上来就给咱展示了一手
视觉模型落地:AI打工,干活全自动
AI 在字节发布的豆包1.5深度思考模型中应用了一项视觉理解模型,能支持对单目标、多目标等进行边界框或点提示定位,并支持3D定位。该模型已广泛应用于各类巡检商业化场景中。通过此技术,用户可以将图交给它识别所有寿司盘的位置,并输出坐标信息。
字节推豆包1.5深度思考模型,PK阿里QWQ-32、Deepseek R1结果如何?
近日,字节跳动发布豆包1.5深度思考模型,该模型在推理能力、速度和多模态方面实现了突破性升级。其参数量为200B,激活参数仅为20B,具有低延迟(<20ms)的优势。通过多项权威基准测试,该模型在数学推理和编程竞赛方面表现出色,并展示了其对图片的视觉推理能力。
羡慕o3?豆包也可以进行图片推理了!
文章介绍了字节跳动发布的新模型豆包1.5和视觉版Doubao-1.5-thinking-pro-vision,并展示了它们在推理位置、根据冰箱内容定制食谱、判断车祸原因以及家居改造建议等方面的出色表现,对比了与OpenAI o3的差异。
字节视频基础大模型发布!单GPU就可生成1080P,蒋路领衔Seed视频团队曝光
字节最新视频生成模型Seaweed-Video仅70亿参数,实现超越同类140亿参数效果。它能根据文本描述创建各种分辨率和时长的视频,并支持图像生成、控制功能增强等新特性。
字节跳动刚发布 Seed-Thinking-v1.5 的技术细节报告
字节跳动发布Seed-Thinking-v1.5技术细节报告,其性能接近Gemini-2.5-Pro和O3-mini-high水平。