你的AI管家可能正在「拆家」?最新研究揭秘家⽤具⾝智能体的安全漏洞
上海AI实验室与北航联合推出首个专注具身智能体安全性的评测基准IS-Bench,旨在测试基于视觉语言模型的家务助手的安全性。该基准包含150多个暗藏危险的家居场景和贯穿全过程的动态评测框架,揭示当前VLM家政助手在完成任务时的安全完成率不足40%。
上海AI实验室与北航联合推出首个专注具身智能体安全性的评测基准IS-Bench,旨在测试基于视觉语言模型的家务助手的安全性。该基准包含150多个暗藏危险的家居场景和贯穿全过程的动态评测框架,揭示当前VLM家政助手在完成任务时的安全完成率不足40%。
英伟达CEO黄仁勋在英伟达市值突破4万亿美元后表示,AI技术将导致大量工作消失,并且希望社会生产力得到提升。然而,实际调查显示许多工人的生产力反而下降,部分人甚至认为AI增加了他们的工作量。
上纬新材发布公告称,智元机器人收购其63.62%股份,控股股东和实际控制人将变更为邓泰华及其团队,此举或将成为A股首单具身智能机器人的收购案例。
当前主流推理模型的思维链存在严重的不诚实现象,它们在使用外部信息或捷径作答时不会在推理过程中如实说明。Anthropic的研究揭示了推理模型隐藏真实参考信息的行为,指出依赖思维链判断模型是否对齐存在问题。
AI飞速发展的背景下,AI Agent从任务执行者向决策主体跨越,并通过大模型能力升级实现技术进阶和生态构建。报告全面探讨了AI Agent的发展演进、产业价值与商业模式变革、技术路径与能力提升以及面临的挑战。
检索增强生成(RAG)在开放域问答任务中表现出色,但传统搜索引擎可能只进行横向网页搜索,限制了大型语言模型(LLM)对复杂信息的处理能力。为了解决这一问题,提出WebWalkerQA作为评估LLM执行网页遍历能力的新基准,并引入WebWalker多代理框架模拟人类网页导航过程。