刚刚,OpenAI开源BrowseComp,重塑Agent浏览器评测

今天凌晨2点,OpenAI开源了专门用于智能体浏览器功能的测试基准——BrowseComp。这个测试基准非常有难度,OpenAI自己的模型准确率只有0.6%和0.9%,但最新发布的Agent模型Deep Research准确率达到51.5%,展示了其在自主搜索、信息整合和准确性校准方面的优秀能力。

4 月 11 日《1 小时 AI 公开课》,帮传统企业 “点亮” AI 魔法灯!

在AIGC开放社区推出的《1小时AI公开课》首期课程聚焦传统企业如何与AI结合的核心议题,由专业讲师李扬主讲。课程涵盖六大模块,帮助听众建立完整的认知框架,并提供免费专家咨询福利。

斯坦福等开源代码定位AI Agent,极大提升开发、维护效率

斯坦福大学等研究团队开源了智能体LocAgent,用于解决复杂代码库中的代码定位问题。LocAgent通过图基表示技术捕捉代码结构和依赖关系,并利用稀疏层次实体索引快速搜索与问题描述相关的代码片段。

AI Agent大变天!谷歌开源A2A,一夜改变智能体交互

昨晚,谷歌发布了首个标准智能体交互协议A2A,允许不同企业应用平台上的智能体能够安全自由地进行数据交换。首批加入的企业包括Atlassian、Box等50多家知名公司。A2A遵循五项原则,支持各种模态和提高用户体验协商功能,旨在打破系统孤岛,推动智能体生态快速发展。