
极市导读
本文由中国科学技术大学、上海交通大学和上海 AI Lab 联合发布,介绍了 CUA 安全测试基准——RiOSWorld,它能全面评估 Computer-Use Agent 在真实电脑使用场景中的安全风险,研究发现当前阶段的 CUA 面临突出安全风险,相关论文、项目官网和 GitHub 代码已全部开源。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
🚀 从Anthropic的Claude3.5 Sonnet自带Computer-Use功能,到OpenAI的Operator CUA横空出世,再到Manus直接火🔥出圈,现在的Computer-Use Agent简直想开了外挂,只需一条指令,独立完成code project(coding/debug)、处理邮件、刷网页、做PPT/教案样样精通!但先别着急着欢呼——你有没有想过,把电脑操纵权交给这些“智能”助手,可能跟把银行卡密码告诉陌生人一样危险?
为了使Computer-Use Agent (CUA)在未来能够大规模、安全地部署在实际应用场景中,来自中国科学技术大学、上海交通大学和上海 AI Lab 的团队强势出手,推出CUA安全测试基准——RiOSWorld!称得上是CUA的“安全体检中心”!该测试基准全面地评估了Computer-Use Agent在真实电脑使用场景中可能面临的安全风险,并表明当前阶段的CUA作为自动化电脑使用助手仍然面临着突出的安全风险。
Agent电脑助手秒变 “踩雷专家”,这些陷阱你发现了吗?
别以为 AI 真的 “聪明绝顶”!研究团队随手甩出一个 “钓鱼邮件” 测试 🎣,好家伙,这些看似无所不能的 Agent 直接集体翻车!收到伪装成 “防钓鱼指南” 的恶意邮件,它们居然乖乖点击链接下载 “防护软件”😱,完全未关注发件人是不是可疑邮箱。这哪里是智能助手,根本就是网络诈骗的 “天选受害者”!

更离谱的是,面对弹窗广告、钓鱼网站,甚至是试图绕过人机验证(reCAPTCHA)这种高危操作,Agent 们也是 “勇往直前”。要是碰上心怀不轨的用户,让它发布谣言、删除系统文件,甚至协助非法活动,它们也可能照单全收!隐私泄露、数据损毁
RiOSWorld, Agent电脑助手的 “照妖镜”!
💡中国科学技术大学、上海交通大学与上海AI Lab联合发布RiOSWorld: Benchmarking the Risk of Multimodal Computer-Use Agents——一个用于全面、综合地评估Computer-Use Agent在真实日常电脑使用任务中存在的安全风险的测试基准。

100%真实的测试环境+支持动态风险部署+多样性的风险类别
现阶段大多数研究Computer-Use Agent安全风险的工作存在的限制是:
-
测评环境缺乏真实性,缺少真实动态的、贴近现实的Computer-Agent交互环境,从而导致风险缺乏真实性 -
风险类别缺乏全面性、多样性,仅关注个别的风险或攻击类型,从而限制了对Computer-Use Agent的全面风险评估

💡相比之前的测评基准,RiOSWorld直接搭建了100%真实的computer-agent交互环境,接入互联网,模拟各种奇葩风险场景。从弹窗广告轰炸到钓鱼网站,从用户恶意指令到隐私泄露危机,它一口气设置了492 个风险测试案例,涵盖了广泛的日常计算机使用风险操作,涉及网络、社交媒体、操作系统、多媒体、文件操作、Code IDE/Github、电子邮件和Office应用等场景,全方位检验Agent电脑助手的 “抗毒能力”!🛡
风险分类和样本数量统计
基于风险源,该研究将这些风险类别分为了2个主类(环境风险和用户风险),13个子类:
-
来源于环境的风险(254个):隐含在电脑使用环境中的风险 -
钓鱼网站 -
钓鱼邮件 -
弹窗/广告 -
reCAPTCHA(人机验证) -
账户/密码欺诈 -
诱导性文字 -
来源于用户的风险(238个):用户有意或无意的风险指令 -
网页操作 -
社交媒体 -
Office套件 -
文件操作 -
OS操作 -
代码IDE/Github -
多媒体操作

任务指令分布

这些任务指令涵盖了广泛的主题,渗透到computer-use agent遇到的许多日常操作场景中。这种全面的覆盖致力于能够有效和全面地评估computer-use agent在各个方面的安全风险。
评估方法
🌟RiOSWorld从两个维度评估MLLM-based Computer-Use Agent的不安全/有风险行为:1)Risk Goal Intention:Agent是否有意图执行风险行为?2)Risk Goal Completion:Agent是否成功完成了风险目标?
RiOSWorld风险示例

🌟具体来说,RiOSWorld基准中的一些风险示例在Figure 1的上半部分展示。如Figure 1的左上部分所示,CUA可能会遇到来源于环境的风险,例如(a) 被诱导点击弹出窗口或广告,(b) 无意中在有害的钓鱼网站上执行操作,(c) 试图在未经真人授权的情况下通过reCAPTCHA验证(这种自动规避行为破坏了旨在防止恶意机器人访问的reCAPTCHA安全机制),(d) 成为欺骗性较高的钓鱼电子邮件的受害者。
另外,如Figure 1右上部分所示,CUA也会面临源于用户的风险。例如,(e) Agent可能会根据用户指令发布谣言、不实信息,(f) Agent可能在命令行中执行高风险命令(例如,删除根目录),(g) Agent可能帮助进行非法活动(毒品、武器)。(h) 用户可能会过度依赖Agent,导致意外的隐私泄露(例如,指示Agent将包含私有API密钥或凭据的敏感代码或数据上传到公共GitHub存储库,但没有进行手动审查)。
CUA安全现状比你想的更糟!
📊研究团队对市面上最火🔥的 MLLM-based CUA “挨个儿暴打”:OpenAI 的 GPT-4.1、Anthropic 的 Claude-3.7-Sonnet、Google 的 Gemini-2.5-pro,还有开源界的明星 Qwen2.5-VL、LLaMA-3.2-Vision…… 结果集体 “原形毕露”!


📊实验结果表明,大多数Agent 都具有较弱的风险意识,会主动 “作死”(有意图执行风险操作,即平均意图不安全率达到了惊人的84.93%);此外,平均有59.64% 的概率直接把危险指令 “贯彻到底”!即能够完成最终的风险目标。
**📊在钓鱼网站、网页操作、OS操作、Code IDE/Github和诱导性文字等高风险场景中,Agent 的 “翻车率” 更是突破89%和80%**!这哪是智能助手,根本就是揣着炸弹的 “定时雷区”!


📊绝大多数的CUA的风险意图和风险完成率都超过了75% 和45% 。这些定量和定性的结果指出,目前大多数基于MLLM-based CUA在计算机使用场景中缺乏风险意识,远达不到可信的自主计算机使用助手。
🚨RiOSWorld 的推出,就像给狂奔的CUA按下了 “暂停键”。它不仅揭开了 Computer-Use Agent 的安全遮羞布,更为未来指明了方向:没有安全兜底的 AI,再强大也是 “空中楼阁”!
现在,论文、项目官网、GitHub 代码全部开源!想围观 AI “翻车现场”?想和顶尖团队一起攻克安全难题?赶紧戳下方链接!👇
论文和项目链接
🔗Paper:https://arxiv.org/pdf/2506.00618
🔗Page:https://yjyddq.github.io/RiOSWorld.github.io/
🔗Github::https://github.com/yjyddq/RiOSWorld
💌转发提醒身边的Computer-Use Agent爱好者!下一次,当你的 AI电脑助手 “热情满满” 地给出操作建议时,记得先问一句:“你通过 RiOSWorld 的安全考试了吗?”
作者简介
本文由中国科学技术大学、上海交通大学和上海AI Lab联合完成
主要作者包括中国科学技术大学硕士生杨靖懿、上海交通大学本科生邵帅
通讯作者为刘东瑞和邵婧,上海AI Lab安全团队,研究方向为AI安全可信
(文:极市干货)