在AI驱动的桌面自动化领域,让AI助手直接操控Windows操作系统以实现复杂任务一直是开发者的追求。
传统自动化工具通常依赖计算机视觉或特定模型,部署复杂且性能受限。
最近在 GitHub 上发现一款可实现 Windows 自动化的“开源核弹”工具,通过 AI 助手实现与 Windows UI 元素进行原生交互,可进行点击、输入、滚动、快捷键、运行命令等操作,模拟用户输入。
它便是 Windows-MCP,一个轻量级、开源的桥梁,连接 AI 代理与 Windows 操作系统。它实现了模型上下文协议(MCP)标准,使像 Claude 这样的 AI 助手能够通过一组强大的工具直接与 Windows 应用程序和界面元素互动。

通过鼠标点击、键盘输入、应用启动和PowerShell命令执行实现系统级自动化,支持Windows 7-11,无需传统计算机视觉技术即可与任意LLM(大型语言模型)协作。
下面是一段通过 Windown-MCP 操控 Edge 浏览器的演示:
GitHub 项目地址:https://github.com/CursorTouch/Windows-MCP
主要功能
-
• 鼠标操作:支持点击、拖拽、移动,精准执行桌面交互 -
• 键盘输入:模拟键盘输入,支持快捷键组合(如 Ctrl+C / Ctrl+V) -
• 应用控制:启动/关闭程序、切换窗口、最大化/最小化操作 -
• 剪贴板管理:读取、写入系统剪贴板 -
• 桌面截图:获取当前桌面截图,帮助 AI 理解上下文 -
• 滚动控制:控制页面滚动,实现文档浏览或网页操作 -
• PowerShell:直接执行系统命令,实现更底层的自动化 -
• MCP 协议支持:可直接接入 Claude Desktop、Cursor 等 MCP 客户端
快速入手
先决条件:
-
• Python 3.13+ -
• Claude 桌面应用程序或其他 MCP 客户端 -
• UV(包管理器),使用 pip install uv
安装 -
• DXT(桌面扩展),使用 npm install -g @anthropic-ai/dxt
进行安装 -
• 在Windows中将英语设置为默认语言
在文件资源管理器中导航到 %USERPROFILE%/.gemini
,然后打开 settings.json
。
在settings.json中添加windows-mcp配置并保存。
{
"theme": "Default",
...
//MCP Server Config
"mcpServers": {
"windows-mcp": {
"command": "uv",
"args": [
"--directory",
"<path to the windows-mcp directory>",
"run",
"main.py"
]
}
}
}
在终端中重新运行 Gemini CLI。
Windows-MCP 项目克隆
git clone https://github.com/CursorTouch/Windows-MCP.git
cd Windows-MCP
构建桌面扩展 DXT:
npx @anthropic-ai/dxt pack
最后打开 Claude 桌面,前往Claude桌面版:设置->扩展->安装扩展(找到.dxt文件)-> 安装
适用场景
-
• 自动化办公:AI 代替你操作 Excel、PPT、Word -
• 软件测试:模拟用户行为执行 UI 自动化测试 -
• 网页操作:打开浏览器、登录账号、批量下载数据 -
• 桌面辅助:AI 截图识别后自动执行下一步操作 -
• 系统管理:执行 PowerShell 脚本批量处理任务
写在最后
Windows-MCP 以其轻量级MCP服务器架构,为AI助手赋予了直接控制Windows UI的能力,支持鼠标、键盘、应用启动和PowerShell命令执行。
支持Windows 7-11,兼容Claude Desktop等MCP客户端。利用这些工具和技术,我们可以构建强大的自动化和AI代理,有效与Windows应用程序交互。

● 一款改变你视频下载体验的神器:MediaGo
● 字节把 Coze 核心开源了!可视化工作流引擎 FlowGram 上线,AI 赋能可视化流程!
● 英伟达开源语音识别模型!0.6B 参数登顶 ASR 榜单,1 秒转录 60 分钟音频!
● 开发者的文档收割机来了!这个开源工具让你一小时干完一周的活!
● PDF文档解剖术!OCR神器+1,这个开源工具把复杂排版秒变结构化数据!

(文:开源星探)