功能介绍
评论列表

详情介绍

你有没有想过,有一天可以动动嘴就让手机自己干活?DroidRun做的就是这件事。这个开源项目让AI代理能够像人一样“看懂”手机屏幕,理解屏幕上有什么按钮、文字、图片,然后自动点击、滑动、输入,完成你交代的任务。

它的工作原理实挺有意思。当你用自然语言说“帮我订一杯下午三点的美式咖啡”时,DroidRun会通过截图分析,理解当前手机界面的状态。然后它会调用背后的大语言模型,比如你选择的OpenAI或者本地部署的DeepSeek,让模型决定下一步该点哪里、滑到什么位置。整个思考过程就像一个人在操作手机——看屏幕、想下一步、动手执行。而且DroidRun会把每一步操作都记录下来,方便你事后查看执行过程。

在技术架构上,DroidRun选择了模块化设计。它提供了一个命令行界面和一个Python API,你可以直接在上面写自动化脚本,也可以把它集成到自己的测试工具里。支持的大模型挺全的,OpenAI、Anthropic、Google的Gemini、本地的Ollama,还有国内的DeepSeek都能用。这意味着你既可以用的大模型做复杂任务,也可以用轻量级模型跑日常脚本。

目前DroidRun还处于比较早期的阶段,官网显示需要加入等待列表才能使用。项目采用MIT许可证,代码开源,社区也很活跃,开发者可以提交代码贡献。

官网入口地址

https://droidrun.ai

下载地址

GitHub开源项目地址:https://github.com/droidrun/droidrun
可以通过GitHub获取源代码,或者通过pip安装(具体安装命令需参考项目文档)

功能介绍

1. 自然语言指令控制
这是DroidRun最核心的功能。你不需要学习任何脚本语言,也不用写复杂的自动化代码,直接用平时说话的方式告诉它要做什么。“帮我清理一下微信缓存”或者“把这张图发给我老婆”这种命令,它都能理解并执行。

2. 多模态视觉解析
系统能实时分析手机屏幕截图,识别出界面上的各种元素——按钮、输入框、列表项、图片。这意味着即使某个App的UI布局变了,只要元素本身还在,DroidRun依然能找到正确的位置进行操作。

3. UI结构提取
除了“看”图片,DroidRun还会解析Android的UI层级结构,获取每个元素的类型、坐标、文本内容。这种结构信息和视觉识别相互补充,让操作更精准。

4. 多模型提供商支持
支持市面上主流的大语言模型,包括OpenAI的GPT系列、Anthropic的Claude、Google的Gemini、开源的Ollama,以及国内的DeepSeek。你可以根据任务复杂度和成本自由选择。

5. 命令行界面和Python API
提供了两种使用方式。命令行适合快速测试和简单任务,输入一行命令就能执行。Python API则适合复杂的自动化场景,你可以写脚本实现多步骤流程,或者集成到现有的测试框架里。

6. 执行追踪
每一步操作都有记录,包括当时的截图、模型思考过程、执行的动作、执行结果。这对于调试自动化脚本、排查问题特别有用。

7. 远程设备控制
支持通过ADB连接远程设备,你可以在一台电脑上控制多台Android手机或平板,适合大规模的UI测试和自动化运维。

8. 自定义脚本扩展
除了自然语言,也支持编写自定义的自动化脚本。你可以把常用的操作序列存成脚本,需要的时候一键执行。

应用场景

  • UI自动化测试:开发者和测试人员可以用自然语言写测试用例,比如“测试登录功能,输入错误密码看看会不会有提示”,DroidRun会像真人一样操作手机并验证结果。

  • 个人自动化助手:给自己设置一些例行任务,比如每天早上8点打开新闻App刷一遍、每周五自动清理手机垃圾、睡觉前自动开启勿扰模式。

  • 无障碍辅助:对于视力不好或者手部不便的用户,可以通过语音指令完成复杂的手机操作,让科技更有温度。

  • 数据采集:需要从某个App里批量爬取数据时,DroidRun可以模拟人工操作,一步步翻页、截图、提取信息。

  • 教学演示:老师可以用它演示某个App的使用流程,只需要说一遍指令,DroidRun就自动把操作过程录下来。

定价模式

DroidRun采用开源核心+云端服务的模式:

  • 开源版本:MIT许可证,免费,可以自己部署在任何环境

  • 云服务:目前处于等待列表阶段,提供个人开发者版、小团队版和企业版,具体定价需要联系官方获取

DroidRun常见问题

本文标签