视觉模型落地:AI打工,干活全自动
AI 在字节发布的豆包1.5深度思考模型中应用了一项视觉理解模型,能支持对单目标、多目标等进行边界框或点提示定位,并支持3D定位。该模型已广泛应用于各类巡检商业化场景中。通过此技术,用户可以将图交给它识别所有寿司盘的位置,并输出坐标信息。
AI 在字节发布的豆包1.5深度思考模型中应用了一项视觉理解模型,能支持对单目标、多目标等进行边界框或点提示定位,并支持3D定位。该模型已广泛应用于各类巡检商业化场景中。通过此技术,用户可以将图交给它识别所有寿司盘的位置,并输出坐标信息。
文章介绍了字节跳动发布的新模型豆包1.5和视觉版Doubao-1.5-thinking-pro-vision,并展示了它们在推理位置、根据冰箱内容定制食谱、判断车祸原因以及家居改造建议等方面的出色表现,对比了与OpenAI o3的差异。
谷歌发布新款TPU v7芯片,峰值算力达4614TFlops,支持大规模并行处理和高效的内存访问。TPU v7在高带宽内存、低延迟ICN网络方面都有显著提升,并配备增强版SparseCore以支持高级排序和推荐工作负载。
中科院&通义实验室提出并开源了基于树状探索和双点思维的系统SolutionRAG,用于评估多约束复杂工程问题上的解决方案生成能力。该系统在SolutionBench上取得了最先进的性能,并显著优于现有方法,有望提升实际应用中的工程方案设计自动化和可靠性。
腾讯混元T1发布,凭借在推理能力上的显著提升及超低API定价(输入1元/百万tokens,输出4元),被评为价格屠夫。实测显示其表现不俗,能够准确回答复杂的逻辑题和数学问题。
百度发布两款全新文心大模型,文心大模型4.5主打原生多模态;文心大模型X1是百度版深度思考模型,具备更强的理解、规划、反思和进化能力。两款大模型已同步上线并开放免费API调用,且价格约为DeepSeek R1的一半。
百度发布文心大模型4.5和文心大模型X1,主打原生多模态与深度思考能力。文心大模型4.5支持多模态并提升多项语言能力;文心大模型X1则更强调中文知识问答、文学创作等综合应用能力,并能‘自主运用工具’。两款模型API调用价格下调一半,百度计划下半年开源文心大模型5.0。
阿里发布最新深度思考模型QwQ-Max-Preview,能够处理数学、编程及通用任务,并即将开源发布。通过对比与Grok3的表现,展示了在逻辑推理和联网搜索方面的优势。