革命性突破!Windows-MCP 开源:AI 助手直接操控实体电脑,告别按键精灵!

 

在AI驱动的桌面自动化领域,让AI助手直接操控Windows操作系统以实现复杂任务一直是开发者的追求。

传统自动化工具通常依赖计算机视觉或特定模型,部署复杂且性能受限。

最近在 GitHub 上发现一款可实现 Windows 自动化的“开源核弹”工具,通过 AI 助手实现与 Windows UI 元素进行原生交互,可进行点击、输入、滚动、快捷键、运行命令等操作,模拟用户输入。

它便是 Windows-MCP,一个轻量级、开源的桥梁,连接 AI 代理与 Windows 操作系统。它实现了模型上下文协议(MCP)标准,使像 Claude 这样的 AI 助手能够通过一组强大的工具直接与 Windows 应用程序和界面元素互动。

通过鼠标点击、键盘输入、应用启动和PowerShell命令执行实现系统级自动化,支持Windows 7-11,无需传统计算机视觉技术即可与任意LLM(大型语言模型)协作。

下面是一段通过 Windown-MCP 操控 Edge 浏览器的演示:

GitHub 项目地址:https://github.com/CursorTouch/Windows-MCP

主要功能

  • • 鼠标操作:支持点击、拖拽、移动,精准执行桌面交互
  • • 键盘输入:模拟键盘输入,支持快捷键组合(如 Ctrl+C / Ctrl+V)
  • • 应用控制:启动/关闭程序、切换窗口、最大化/最小化操作
  • • 剪贴板管理:读取、写入系统剪贴板
  • • 桌面截图:获取当前桌面截图,帮助 AI 理解上下文
  • • 滚动控制:控制页面滚动,实现文档浏览或网页操作
  • • PowerShell:直接执行系统命令,实现更底层的自动化
  • • MCP 协议支持:可直接接入 Claude Desktop、Cursor 等 MCP 客户端

快速入手

先决条件:

  • • Python 3.13+
  • • Claude 桌面应用程序或其他 MCP 客户端
  • • UV(包管理器),使用pip install uv安装
  • • DXT(桌面扩展),使用npm install -g @anthropic-ai/dxt进行安装
  • • 在Windows中将英语设置为默认语言

在文件资源管理器中导航到 %USERPROFILE%/.gemini,然后打开 settings.json

在settings.json中添加windows-mcp配置并保存。

{
  "theme""Default",
  ...
//MCP Server Config
  "mcpServers": {
    "windows-mcp": {
      "command""uv",
      "args": [
        "--directory",
        "<path to the windows-mcp directory>",
        "run",
        "main.py"
      ]
    }
  }
}

在终端中重新运行 Gemini CLI。

Windows-MCP 项目克隆

git clone https://github.com/CursorTouch/Windows-MCP.git
cd Windows-MCP

构建桌面扩展 DXT:

npx @anthropic-ai/dxt pack

最后打开 Claude 桌面,前往Claude桌面版:设置->扩展->安装扩展(找到.dxt文件)-> 安装

适用场景

  • • 自动化办公:AI 代替你操作 Excel、PPT、Word
  • • 软件测试:模拟用户行为执行 UI 自动化测试
  • • 网页操作:打开浏览器、登录账号、批量下载数据
  • • 桌面辅助:AI 截图识别后自动执行下一步操作
  • • 系统管理:执行 PowerShell 脚本批量处理任务

写在最后

Windows-MCP 以其轻量级MCP服务器架构,为AI助手赋予了直接控制Windows UI的能力,支持鼠标、键盘、应用启动和PowerShell命令执行。

支持Windows 7-11,兼容Claude Desktop等MCP客户端。利用这些工具和技术,我们可以构建强大的自动化和AI代理,有效与Windows应用程序交互。

 

● 一款改变你视频下载体验的神器:MediaGo

● 字节把 Coze 核心开源了!可视化工作流引擎 FlowGram 上线,AI 赋能可视化流程!

● 英伟达开源语音识别模型!0.6B 参数登顶 ASR 榜单,1 秒转录 60 分钟音频!

● 开发者的文档收割机来了!这个开源工具让你一小时干完一周的活!

● PDF文档解剖术!OCR神器+1,这个开源工具把复杂排版秒变结构化数据!








(文:开源星探)

发表评论