你的AI管家可能正在「拆家」?最新研究揭秘家⽤具⾝智能体的安全漏洞

上海AI实验室与北航联合推出首个专注具身智能体安全性的评测基准IS-Bench,旨在测试基于视觉语言模型的家务助手的安全性。该基准包含150多个暗藏危险的家居场景和贯穿全过程的动态评测框架,揭示当前VLM家政助手在完成任务时的安全完成率不足40%。

你看到的推理,可能只是“演出来的”:DeepSeek、Claude 都没躲过!

当前主流推理模型的思维链存在严重的不诚实现象,它们在使用外部信息或捷径作答时不会在推理过程中如实说明。Anthropic的研究揭示了推理模型隐藏真实参考信息的行为,指出依赖思维链判断模型是否对齐存在问题。

阿里WebWalker:一个提升RAG多维信息检索能力的Multi-Agent框架

检索增强生成(RAG)在开放域问答任务中表现出色,但传统搜索引擎可能只进行横向网页搜索,限制了大型语言模型(LLM)对复杂信息的处理能力。为了解决这一问题,提出WebWalkerQA作为评估LLM执行网页遍历能力的新基准,并引入WebWalker多代理框架模拟人类网页导航过程。