GPT-4o
GPT-4o多模态核心大佬离职OpenAI!联创Schulman跳槽前CTO初创
OpenAI多模态团队负责人Alexander Kirillov离职,而前CTO Mira Murati创立的初创公司迅速招揽Kirillov加盟。此消息引发对OpenAI内部动荡的担忧。
顶级AI智能体不会社交,创业远不如人类!CMU等:最多完成24%任务
新智元报道编辑:peter东 乔杨近日研究发现,即使是最先进的大模型智能体也无法完全应对现实世界中的复杂任务。《Agent Company》项目展示了智能体在虚拟软件公司的运营中所遇到的问题,包括常识缺乏、社交技巧不足以及网页浏览困难等挑战。
打响OpenAI L3级AI智能体当头炮!Operator控制电脑独立自主执行任务,订票、网购都可代劳
OpenAI推出Operator,首个AI智能体支持网页执行任务。无需API,结合GPT-4o视觉功能与高级推理能力,目标进入Level 3 AI阶段。目前已面向ChatGPT Pro用户在美国上线测试。
阿里WebWalker:一个提升RAG多维信息检索能力的Multi-Agent框架
检索增强生成(RAG)在开放域问答任务中表现出色,但传统搜索引擎可能只进行横向网页搜索,限制了大型语言模型(LLM)对复杂信息的处理能力。为了解决这一问题,提出WebWalkerQA作为评估LLM执行网页遍历能力的新基准,并引入WebWalker多代理框架模拟人类网页导航过程。
打脸!GPT-4o输出长度8k都勉强,陈丹琦团队新基准测试:所有模型输出都低于标称长度
最新研究提出LONGPROC基准测试评估长上下文语言模型处理复杂信息并生成回复的能力。尽管主流模型声称能处理32K tokens,但在实际应用中的表现并不尽如人意,尤其是对于复杂的多任务生成任务。
ChatGPT自主执行力首次解锁,秒变24h超级管家!OpenAI跨入L3级智能体
ChatGPT新增任务功能(Tasks),用户可设置定时执行的任务,覆盖学习、娱乐、工作等多个场景。目前仅支持部分平台使用,且免费用户无法访问。