7个月翻一番!AI agent能力飙升,METR报告揭示指数级进化规律
报告指出,大模型在软件开发、数学竞赛等任务上的能力每2-6个月翻一番,表明其正在迈向高度自动化。METR选取9个基准测试评估AI agent的time horizon,发现这些智能体的能力呈现出‘摩尔定律’式的增长趋势。
报告指出,大模型在软件开发、数学竞赛等任务上的能力每2-6个月翻一番,表明其正在迈向高度自动化。METR选取9个基准测试评估AI agent的time horizon,发现这些智能体的能力呈现出‘摩尔定律’式的增长趋势。
字节跳动开源的多模态AI Agent UI-TARS 1.5在计算机、浏览器和手机使用测试中表现优异,并在GUI定位方面显著提升。它在游戏领域也表现出强大能力,展现出出色的推理、决策和适应能力。