
图片来源:a16z
Z Highlights
-
Unpatched AI这类工具带来的影响还在持续显现,但已经很清楚:传统渗透测试的根本假设正在被打破。几十年来,人工评估一直是安全的“金标准”,以其针对性、深度和有效性著称。但随着系统变得越来越复杂和互联,一次性的人工测试已难以跟上节奏,新一代以软件驱动的自动化安全方案正加速崛起。
-
用户普遍反映,这些攻防安全平台“什么都做,却没有一样做得好”,依赖于静态检测逻辑,实际上完全可以用自家脚本替代。它们看起来像是给传统扫描器披上了新包装,而不是具备智能或自主能力的系统。
-
无论AI系统多么严谨,目前都难以完全替代人工测试。早期用户往往采用折中方案:后台用AI工具,表面上每年仍安排一次人工渗透测试以满足外部合规要求。随着标准逐步演变,AI渗透测试有望被正式认可,但近期内“人工+AI”混合模式仍会是主流。
2025年初,一份匿名文件在网上流传。里面列出了100多个此前未知的Microsoft Access和365漏洞,内容包括技术验证、堆栈追踪、利用链分析,细致详尽。信息源来自一个自称“Unpatched AI”的工具,没有团队、没有公司,只有这些发现。
一开始,安全圈对这件事有些迷惑。漏洞都是真实存在的,分析报告极其专业,显然用了自动化工具。但从覆盖面、利用链的复杂度和准确率来看,这远远超出了普通扫描器或脚本的水平。公开信息显示,这背后是一个自主的、由大语言模型(LLM)驱动的漏洞研究管道,融合了现代模糊测试、符号执行和生成式AI来完成报告撰写。虽然背后团队身份依然未知,但这种工具的潜力已经显现——它们有可能彻底改变网络攻防格局。
这也带来了一个令人不安的问题:当最厉害的“渗透测试员”不再是人类,会发生什么?
现在,这已经不是假设。自主系统正在进军攻防安全领域,有些场合甚至已超越了人类研究员。它们开始在公开漏洞悬赏排行榜上崭露头角,可以大规模自动挖掘漏洞,无需人工指导就能规划复杂的攻击路径。
这标志着攻防安全领域一个全新时代的开端:传统渗透测试的核心——范围定义、发现与利用——正在逐步由机器自动完成。上世纪70年代的“虎队”是闯入大楼,2000年代的红队是攻破网络,而现在,工程师们正在打造可大规模自动测试的系统——无需等待排期、范围限定或外部顾问。
当然,黑客们也在加速,但这不意味着防守方会被碾压。相反,防守者仍然对自己的系统拥有最深的洞察、控制与业务场景理解。只是防守与检测的模式正在变化——更快的软件节奏要求更快的安全反馈。
Unpatched AI这类工具带来的影响还在持续显现,但已经很清楚:传统渗透测试的根本假设正在被打破。几十年来,人工评估一直是安全的“金标准”,以其针对性、深度和有效性著称。但随着系统变得越来越复杂和互联,一次性的人工测试已难以跟上节奏,新一代以软件驱动的自动化安全方案正加速崛起。
渗透测试(pentesting)背景介绍
要理解当前的变化,首先需要了解渗透测试本质上是如何运作的。渗透测试的核心,是对现实攻击场景进行结构化模拟,目的是在黑客发现之前,找出系统中可被利用的安全漏洞。
渗透测试通常从“确定范围”和“约定规则”开始,比如明确哪些IP段、网站、API和云资产属于测试对象。之后,测试人员会进行信息收集:先通过被动扫描(如查询DNS、WHOIS、SSL证书等公开记录),再用Nmap、Amass、Masscan等工具对外部服务进行主动指纹识别。他们会枚举开放端口、识别服务版本,并标记出可能存在漏洞的组件。

图片来源:a16z
接下来就是漏洞发现与利用阶段。测试人员会用Nessus或Burp Suite这样的扫描器来发现常见的CVE漏洞,但最关键、最复杂的部分其实还是靠手动完成的——比如将各种错误配置、不安全的认证流程或糟糕的业务逻辑串联起来,构建出可用的攻击路径。举例来说,测试人员可能会绕过S3存储桶的访问ACL控制列表(ZP注:控制列表),从而进入内部云服务;也可能利用 IDOR(ZP注:不安全的直接对象引用)漏洞泄露敏感客户数据。在更高级的场景下,他们还可能在不同租户之间提升权限,滥用权限过高的 IAM 角色,或者通过过时依赖中的RCE(ZP注:远程代码执行)漏洞模拟恶意程序下发。
最终产出是一个详细的报告,内容包括发现了哪些问题、这些漏洞是如何被利用的,以及相应的修复建议。报告中通常会附上POC概念验证(ZP注:概念验证)攻击载荷、被攻陷会话的截图,以及供开发人员复现漏洞的具体步骤。渗透测试本质上是一个结构化流程,用于模拟真实的网络攻击。通常包括以下五个关键阶段:
渗透测试的五个阶段
1.信息收集(Reconnaissance)
收集目标系统的情报信息。
2.扫描(Scanning)
使用Nmap或Nessus等工具识别开放端口、服务和潜在漏洞。
3.利用(Exploitation)
尝试利用已识别的漏洞。
4.后渗透(Post-Exploitation)
维持访问权限、提升权限,并实现测试目标。
5.报告(Reporting)
记录发现、并提供修复建议。
为什么传统渗透测试已经不够用了
如今的威胁速度已达“机器级”。借助AI的攻击者可以串联零日漏洞、实时动态利用业务逻辑缺陷,发起前所未有的高效复杂攻击。攻击面也在急剧扩大——云环境的蔓延、敏捷的DevOps流程、以及IoT设备的普及,使系统环境不断变化、持续扩展,这远远超出了周期性、人工主导的渗透测试所能全面覆盖的范围。
传统做法是每年测试几次,并寄希望于环境在这期间不会发生太大变化。但现实是,软件一直在快速演进:新的API每周上线,云端权限每小时在变,开发者的迭代节奏飞快——而攻击者的速度更快。最终,渗透测试报告只不过是对系统的“精美快照”,而这些系统早已在不断变化。2025年Verizon数据泄露调查报告明确指出:超过三分之二的安全事件都涉及90天以上未修补的漏洞,而许多组织其实刚做过安全评估。
这并不意味着渗透测试已经过时,但的确说明我们亟需一种更加持续、更加具备场景感、更加适应现代软件节奏的安全检测方式。
“传统渗透测试就像你每年只检查一次家里的门锁和窗户,而成群的AI窃贼却在持续试探你的房子。” —— Max Moroz
最近一代的攻防安全平台曾承诺自动化渗透测试,但由于多种原因,未能带来持久价值。这些工具试图覆盖广泛的安全面——从钓鱼攻击模拟到基础设施扫描应有尽有——却缺乏足够的深度和精度,结果并不令人信服。用户普遍反映,这些平台“什么都做,却没有一样做得好”,依赖于静态检测逻辑,实际上完全可以用自家脚本替代。它们看起来像是给传统扫描器披上了新包装,而不是具备智能或自主能力的系统。
除了产品深度不足,这些平台还难以适应云原生环境。例如,有的平台依然“只支持本地Windows”,对于使用Kubernetes、Serverless或以SaaS为主的公司几乎没什么用。而且它们缺乏对持续CI/CD集成和现代应用层(如移动端或Web前端)的良好支持,显得越来越过时。更糟糕的是,许多团队反馈会收到大量缺乏实际可利用性的告警和CVE,导致安全和开发团队对这些工具逐渐失去信任。大家常常抱怨:“我们看到了5万个‘高危漏洞’,但没有一个是真的。”
用AI扩展渗透测试
新一代渗透测试的核心,是从受限于人力的服务模式,转向可扩展、以AI为核心、能够匹配现代软件开发速度和攻击面的系统。
这一新兴类别的共同点在于架构:它们将大语言模型、传统漏洞利用工具、实时遥测与专有数据相结合。有的平台是完全自主的系统,能编排一组“智能代理”自动规划攻击、实施测试并生成经过验证的报告;有的则更像“副驾驶”,为人工测试者提供情报收集、攻击载荷生成和报告自动化等辅助功能;还有许多产品处于两者之间,主要由人操作,但通过混合工作流将自动化与人工监督结合起来。
这些新系统的最大特点是复杂度:它们不仅仅是在ChatGPT之上做点提示词工程,而是深度集成了专用于安全的数据层、上下文管理、自定义漏洞利用库,甚至自有数据壁垒(如基准挑战题、真实漏洞赏金赛数据等)。它们正打破旧模式的束缚——不再依赖专家人力、固定周期和静态产出——而是重构为以软件为核心、持续化、AI增强的新型体系。传统的工具本身短期不会彻底消失(一些创业公司也在重做这些工具),但整体只会变得更有用。
下图就是目前市场上一些新一代渗透测试公司的市场分布(截至撰稿时):

图片来源:a16z
AI如何重写渗透测试规则
AI的影响是深远的,具体体现在以下几个核心方面:
AI像黑客一样思考
传统工具(如漏洞扫描器)擅长发现静态问题,比如过期的库、暴露的服务和弱密码。但如今的漏洞常常藏在业务流程、权限变更、特殊API路径等环节。现在,智能代理系统可以根据意图进行推理和操作,而不仅仅依赖原始输入。它们通过学习真实漏洞利用、代码库和系统行为,能够识别过去只有人类直觉才能发现的业务逻辑漏洞。比如:电商中的优惠券滥用、功能误用导致的权限提升、或深藏在多层调用中的微妙注入路径。
安全随代码一同上线
随着渗透测试变得更高效、更易用,测试、渗透和红队之间的界限将逐渐模糊。你可以想象未来的渗透测试直接集成进CI/CD流程,对每一次部署自动进行安全评估。这种持续安全方式,将大幅降低漏洞流入生产环境的风险。
无处不在,全面覆盖
传统渗透测试有很强的局限性——通常只针对单一目标、固定时段、一个测试团队。新一代AI系统则可以7×24不间断自动探测,能跨多种环境、同时测试多个资产,并自动跑探索路径(如模糊测试、状态空间遍历),这些如果全靠人工会极其昂贵。结果就是:攻击面覆盖更广,企业面对“从不请假”的攻击者时准备更充分。
可验证的漏洞利用
多数安全团队都被扫描器和静态分析工具的大量误报压得喘不过气。下一代工具则彻底反转了这一点——它们在安全沙箱中实际执行漏洞利用,对每一个发现都进行验证,只生成真正可行动的告警。不用再大海捞针、疲于甄别。每一条都是经过验证、可直接修复的真实漏洞。
局限与挑战
AI驱动的渗透测试极具前景,但并非万能钥匙。尽管工具发展迅速,目前在覆盖范围、可靠性和操作信任等方面依然存在明显短板,距离完全取代传统方法还有距离。主要挑战包括:
数据限制影响深度
这些系统现在在发现XSS、SSRF、简单配置错误等“低垂果实”型漏洞方面表现优异,但在处理复杂漏洞(如权限绕过链、访问控制缺陷、多步骤注入或环境相关的竞态条件)上,能力仍有限。举例来说,AI 工具是否能像安全专家 Jason Haddix 那样,发现一个配置错误但隐藏很深、正在悄悄泄露数百万张支票扫描件的S3存储桶?那次测试不仅要拦截和解码移动App流量、识别上传位置,还要理解数据内容的重要性及其隐私和合规影响——这种多层次、跨领域的分析,目前AI工具还很难完全胜任。
部分厂商开始用领域专用训练数据、或接入大型漏洞数据库(如历史漏洞赏金报告、结构化CTF赛题)来提升能力。随着训练数据和遥测数据的提升,这类工具会不断进步,但现阶段它们最擅长处理已知漏洞模式和可复现的流程。
责任归属尚未解决
在受监管或高信任度行业,审计和法律责任非常重要。谁为测试结果负责?如果出现漏检,谁来承担责任?目前大多数合规框架(如SOC2、PCI、ISO 27001)仍要求由认证专家主导的“人工渗透测试”。无论AI系统多么严谨,目前都难以完全替代人工测试。早期用户往往采用折中方案:后台用AI工具,表面上每年仍安排一次人工渗透测试以满足外部合规要求。随着标准逐步演变,AI渗透测试有望被正式认可,但近期内“人工+AI”混合模式仍会是主流。
覆盖范围依然有限
当前大多数AI系统主要聚焦于Web应用——这是测试自主agent最容易切入的方向,但大量攻击面尚未覆盖。云配置、内部网络、移动应用、IoT设备和客户端等领域要么只是浅尝辄止,要么完全未涉及。尽管目标是全栈攻防,现实中还远未实现。
“人”的因素仍不可忽视
即使工具能发现真正的问题,如何被解读和重视又是另一重挑战。有真实案例表明,安全专家Evan Hosinski发现某PDF服务存在暴力破解患者医疗记录的漏洞,但客户认为风险不现实,结果数月后该场景真的发生了公开泄露。类似案例还有2013年的Target和2017年的Equifax数据泄露——技术手段本身没有错,问题原本可以避免,但组织缺乏正确的安全心态,导致最好的工具也被忽视。AI可以发现风险,但最终要有人采取行动。
高层和董事会不能再被动
升级防御意味着主动、持续投入现代安全工具和能力,而不是每年才动一次。安全投入不足的代价已不再是理论上的,而是直接影响声誉、运营,甚至企业的生存。
展望未来
一切才刚刚开始。据我们所知,目前还没有哪套新一代渗透测试系统能在大规模生产环境中全面部署,但这一天已经很近了。开发进度、早期试点的表现,以及安全团队的热情都说明,我们正处在一个重要的拐点上。最初还只是小范围尝试的技术,如今正在成为现代安全体系的核心层。
新一代渗透测试工具正不断演进,逐步变成动态、持续的系统,不再只是传统的合规性检测。有的团队已经把能力扩展到DAST(动态应用安全测试)、SAST(静态应用安全测试)、运行时监控和威胁建模等周边领域,打造出能弥补关键安全盲区的一体化系统。目标不仅仅是“发现问题”,而是构建能跨越软件全生命周期、实时自适应并深度集成的安全系统。像Unpatched AI、RamiGPT这样,将传统漏洞扫描与AI能力融合的工具,已经初步展示了未来的模样:实时检测、智能优先级排序,以及直接给人用的输出结果。
我们尚未在这个领域做出投资——但我们非常期待。我们坚信,防守者有着攻击者永远无法拥有的最大优势:对自身系统的全局可见性。难点在于,如何持续、高效、大规模地理解和利用这些复杂信息。新一代渗透测试系统让我们离这个目标越来越近。它们不仅仅是软件,更是“正义一方”不断领先的核心武器。
原文:Next-Gen Pentesting: AI Empowers the Good Guys
https://a16z.com/next-gen-pentesting-ai-empowers-the-good-guys/
编译:Guangyuan Tang,关注具身智能及AIGC艺术美学,欢迎交流
请注意,本文编译自文末载明的原始链接,不代表Z Potentials立场。如果您对本文有任何想法或见解,欢迎在评论区留言互动探讨。
Z Potentials将继续提供更多关于人工智能、机器人、全球化等领域的优质内容。我们诚邀对未来充满憧憬的您加入我们的社群,与我们共同分享、学习、成长。
(文:Z Potentials)