现在评测集太简单了,OpenAI 推出深度搜索评测新基准 BrowseComp
OpenAI 发布并开源 BrowseComp 基准测试,旨在评估智能体在互联网上精准定位极难查找信息的能力,以应对现有评估方法的不足。
OpenAI 发布并开源 BrowseComp 基准测试,旨在评估智能体在互联网上精准定位极难查找信息的能力,以应对现有评估方法的不足。
OpenAI发布了全新基准测试BrowseComp,专为评估AI代理在互联网上寻找难以获取信息的能力而设计。该测试包含1266个难题,其中大多数人类也需要花费两小时才能解决。
文章介绍了五个项目或工具:BrowseComp、ReCamMaster、ORION、Seed-Thinking-v1.5 和 Agent-Wiz。它们分别专注于AI代理的浏览能力、视频生成、自动驾驶以及智能体的工作流安全评估等方面,涵盖了机器学习和人工智能领域的多个方向。