前两天在 AI 社区掀起热潮的 AI 控制手机工具:DroidRun 已经正式开源了!

这款由 DroidRun 团队开发的框架允许通过自然语言命令控制 Android 手机,让大型语言模型(LLM)化身智能助手,轻松实现社交媒体自动化、消息发送或测试任务。

随着 LLM 的理解和推理能力飞速提升,手机任务自动化成为 AI 应用的新热点。DroidRun 通过结合视觉解析、UI 提取和 LLM 推理,让 Android 手机像人类一样被操控。
刚刚在 GitHub 上开源就已经揽获了 1.2k 标星!

无论是测试工程师用于自动化测试,还是普通用户简化日常操作,DroidRun 都展现了无限可能。
项目介绍
DroidRun 是一个开源的 Android 自动化框架,通过自然语言指令驱动 LLM 智能体控制手机。
它由两部分组成:
-
• LLM 智能体:运行在电脑或云端,负责解析自然语言指令,生成操作序列,支持 OpenAI、Anthropic、Gemini 等多种 LLM 提供商。 -
• DroidRun Portal App:安装在 Android 手机上,通过 ADB 或 Wi-Fi 接收指令,执行屏幕点击、输入等操作。
它利用视觉模型(解析屏幕截图)和 UI 结构提取(基于 Accessibility Service API),结合 LLM 的推理能力,实现复杂任务自动化。
主要功能
-
• 自然语言控制:使用自然语言命令控制 Android 设备 -
• 多 LLM 支持:支持多个 LLM 提供商(OpenAI、Anthropic、Gemini) -
• 极简命令行操作:易于使用的命令行界面 -
• 丰富的扩展能力:可扩展的Python API用于自定义自动化 -
• 视觉UI解析:直接通过截图理解手机控件元素
快速使用
DroidRun 的部署过程简单,以下是详细步骤,助你快速实现手机自动化:
方式一:从PyPI安装(推荐)
pip install droidrun
方式二:从源代码安装
git clone https://github.com/droidrun/droidrun.git
cd droidrun
pip install -e .
先决条件:
1、通过USB或ADB连接到TCP/IP的Android设备
2、ADB(Android 调试桥)已安装并配置
adb 安装非常简单,可直接搜索教程安装到本地电脑即可。安装完成后,别忘了设置下环境变量就可以随时在命令行全局使用了。
能执行以下命令,说明安装成功:
adb version
与此同时,对于要操作的Android手机需要打开开发者模式,启用USB调试。
3、DroidRun Portal 应用程序已安装在您的 Android 设备上
DroidRun 需要在你的 Android 设备上安装 DroidRun 门户应用程序。
下载地址:https://github.com/droidrun/droidrun-portal
两种命令安装方式:
droidrun setup --path=/path/to/droidrun-portal.apk
# or
adb install -r /path/to/droidrun-portal.apk
-
4. OpenAI等LLM大模型配置
# Choose at least one of these based on your preferred provider
export OPENAI_API_KEY="your_openai_api_key_here"
export ANTHROPIC_API_KEY="your_anthropic_api_key_here"
export GEMINI_API_KEY="your_gemini_api_key_here"
最后就可以通过USB连接您的设备或设置无线ADB:
# List connected devices
droidrun devices
# Connect to a device over Wi-Fi
droidrun connect 192.168.1.100
验证设置是否正确:
# Should list your connected device and show portal status
droidrun status
基本用法:
# 打开设置APP
droidrun "Open the settings app"
# 指定模型
droidrun "Open the calculator app" --provider openai --model gpt-4o-mini
# 指定设备
droidrun "Open Chrome and search for weather" --device abc123
还可以创建Python测试代码:
#!/usr/bin/env python3
import asyncio
import os
from droidrun.agent.react_agent import ReActAgent
from droidrun.agent.llm_reasoning import LLMReasoner
from dotenv import load_dotenv
# Load environment variables from .env file
load_dotenv()
async def main():
# Create an LLM instance (choose your preferred provider)
llm = LLMReasoner(
llm_provider="gemini", # Can be "openai", "anthropic", or "gemini"
model_name="gemini-2.0-flash", # Choose appropriate model for your provider
api_key=os.environ.get("GEMINI_API_KEY"), # Get API key from environment
temperature=0.2
)
# Create and run the agent
agent = ReActAgent(
task="Open the Settings app and check the Android version",
llm=llm
)
steps = await agent.run()
print(f"Execution completed with {len(steps)} steps")
if __name__ == "__main__":
asyncio.run(main())
支持的操作类型
-
• App 启动与关闭:启动应用、回到主界面、切换任务等 -
• UI 操作:点击、长按、滑动、输入文字 -
• 控件识别:可基于 AccessibilityNode 信息判断是否找到按钮 -
• 工具调用:截图、OCR、图像问答辅助定位控件 -
• 反馈能力:可截图/日志记录执行过程 -
• 自动化测试:执行固定 UI 流程并验证是否成功
写在最后
DroidRun 是 AI 手机自动化领域的开源先锋,其自然语言驱动和强大功能让人眼前一亮。
DroidRun = 让 LLM 真的“动起手机”,实现从语言到操作的闭环!
它不仅是 AI+移动自动化的新起点,更可能开启LLM 控制世界的触手端口。
如果想让 AI 帮你发消息、发帖或测试 App?那它就可以。
GitHub 项目地址:https://github.com/droidrun/droidrun
文档入口:https://docs.droidrun.ai/introduction

● 一款改变你视频下载体验的神器:MediaGo
● 新一代开源语音库CoQui TTS冲到了GitHub 20.5k Star
● 最新最全 VSCODE 插件推荐(2023版)
● Star 50.3k!超棒的国产远程桌面开源应用火了!
● 超牛的AI物理引擎项目,刚开源不到一天,就飙升到超9K Star!突破物理仿真极限!

(文:开源星探)