智能体评测归档 - 每时AI

刚刚，OpenAI开源PaperBench，重塑顶级AI Agent评测

2025年4月3日8时作者 AIGC开放社区

今天凌晨
1点，
OpenAI开源了一个全新的
AI Agent评测基准——
PaperBench。
该基准主要考核智能体的搜索、整合、执行等能力。