详情介绍
你有没有想过,有一天可以动动嘴就让手机自己干活?DroidRun做的就是这件事。这个开源项目让AI代理能够像人一样“看懂”手机屏幕,理解屏幕上有什么按钮、文字、图片,然后自动点击、滑动、输入,完成你交代的任务。
它的工作原理实挺有意思。当你用自然语言说“帮我订一杯下午三点的美式咖啡”时,DroidRun会通过截图分析,理解当前手机界面的状态。然后它会调用背后的大语言模型,比如你选择的OpenAI或者本地部署的DeepSeek,让模型决定下一步该点哪里、滑到什么位置。整个思考过程就像一个人在操作手机——看屏幕、想下一步、动手执行。而且DroidRun会把每一步操作都记录下来,方便你事后查看执行过程。
在技术架构上,DroidRun选择了模块化设计。它提供了一个命令行界面和一个Python API,你可以直接在上面写自动化脚本,也可以把它集成到自己的测试工具里。支持的大模型挺全的,OpenAI、Anthropic、Google的Gemini、本地的Ollama,还有国内的DeepSeek都能用。这意味着你既可以用的大模型做复杂任务,也可以用轻量级模型跑日常脚本。
目前DroidRun还处于比较早期的阶段,官网显示需要加入等待列表才能使用。项目采用MIT许可证,代码开源,社区也很活跃,开发者可以提交代码贡献。
官网入口地址
下载地址
GitHub开源项目地址:https://github.com/droidrun/droidrun
可以通过GitHub获取源代码,或者通过pip安装(具体安装命令需参考项目文档)
功能介绍
1. 自然语言指令控制
这是DroidRun最核心的功能。你不需要学习任何脚本语言,也不用写复杂的自动化代码,直接用平时说话的方式告诉它要做什么。“帮我清理一下微信缓存”或者“把这张图发给我老婆”这种命令,它都能理解并执行。
2. 多模态视觉解析
系统能实时分析手机屏幕截图,识别出界面上的各种元素——按钮、输入框、列表项、图片。这意味着即使某个App的UI布局变了,只要元素本身还在,DroidRun依然能找到正确的位置进行操作。
3. UI结构提取
除了“看”图片,DroidRun还会解析Android的UI层级结构,获取每个元素的类型、坐标、文本内容。这种结构信息和视觉识别相互补充,让操作更精准。
4. 多模型提供商支持
支持市面上主流的大语言模型,包括OpenAI的GPT系列、Anthropic的Claude、Google的Gemini、开源的Ollama,以及国内的DeepSeek。你可以根据任务复杂度和成本自由选择。
5. 命令行界面和Python API
提供了两种使用方式。命令行适合快速测试和简单任务,输入一行命令就能执行。Python API则适合复杂的自动化场景,你可以写脚本实现多步骤流程,或者集成到现有的测试框架里。
6. 执行追踪
每一步操作都有记录,包括当时的截图、模型思考过程、执行的动作、执行结果。这对于调试自动化脚本、排查问题特别有用。
7. 远程设备控制
支持通过ADB连接远程设备,你可以在一台电脑上控制多台Android手机或平板,适合大规模的UI测试和自动化运维。
8. 自定义脚本扩展
除了自然语言,也支持编写自定义的自动化脚本。你可以把常用的操作序列存成脚本,需要的时候一键执行。
应用场景
-
UI自动化测试:开发者和测试人员可以用自然语言写测试用例,比如“测试登录功能,输入错误密码看看会不会有提示”,DroidRun会像真人一样操作手机并验证结果。
-
个人自动化助手:给自己设置一些例行任务,比如每天早上8点打开新闻App刷一遍、每周五自动清理手机垃圾、睡觉前自动开启勿扰模式。
-
无障碍辅助:对于视力不好或者手部不便的用户,可以通过语音指令完成复杂的手机操作,让科技更有温度。
-
数据采集:需要从某个App里批量爬取数据时,DroidRun可以模拟人工操作,一步步翻页、截图、提取信息。
-
教学演示:老师可以用它演示某个App的使用流程,只需要说一遍指令,DroidRun就自动把操作过程录下来。
定价模式
DroidRun采用开源核心+云端服务的模式:
-
开源版本:MIT许可证,免费,可以自己部署在任何环境
-
云服务:目前处于等待列表阶段,提供个人开发者版、小团队版和企业版,具体定价需要联系官方获取
DroidRun常见问题
DroidRun由一个开源社区驱动,核心贡献者来自各地,项目本身尚未披露背后的商业公司。从官网域名和项目托管情况看,是一家初创公司在主导。
官网地址是https://droidrun.ai 不过需要提醒的是,目前网站显示处于等待列表阶段,注册后需要等待才能使用云服务。代码托管在GitHub上,地址是https://github.com/droidrun/droidrun
DroidRun是一个让大语言模型直接控制安卓手机的开源框架。你可以把它想象成一个“AI手指”,它能看懂屏幕上有什么,然后根据你的语言指令自动点击、滑动、输入文字,帮你完成各种操作。
主要有两种方式。如果你只想简单用用,可以等官网开放后注册云服务,通过网页界面操作。如果你想自己部署,可以从GitHub拉取代码,按文档配置好环境,然后用命令行或者写Python脚本调用。使用前需要在手机上开启开发者选项和USB调试,通过ADB连接电脑。
开源版本免费,MIT许可证你随便用。云服务目前还在等待列表阶段,个人版、团队版和企业版的具体定价要等官方公布。如果你有开发能力,可以自己部署免费的。
从代码层面看,MIT许可证的项目你可以自己审查代码,不存在隐藏后门。但使用时要注意,它需要ADB调试权限,这相当于给了它控制你手机的权限。如果你运行了不信任的脚本,理论上存在风险。建议只在测试设备或者你信任的脚本上使用。
第一个技巧是给指令要具体。说“打开设置”没问题,但如果说“帮我关闭Wi-Fi只保留移动数据”就需要描述清楚。第二个技巧是善用截图反馈,如果遇到复杂的界面,可以先让它截图看看当前状态再决定下一步。第三个技巧是写脚本复用,把每天要做的重复操作存成脚本,第二天一键执行。第四个技巧是选对模型,简单的点击任务用本地Ollama就够了,复杂推理才需要用GPT-4。
特色是“视觉+结构”双重理解。他自动化工具要么只靠坐标点,要么只靠UI结构,DroidRun两个都看,识别更准。第二个特色是支持国内模型,DeepSeek这些都能用,对国内开发者友好。第三个特色是开源,你可以根据自己的需求魔改。
如果你用开源版自己部署,所有数据都在你自己的电脑和手机上,安全由你自己负责。如果你用将来推出的云服务,那数据会经过官方服务器,需要信任他们的隐私政策。考虑到控制的是手机,涉及隐私数据,很多人会选择自托管。
对于熟悉Python和ADB的开发者来说挺好用,API设计简洁,文档也算清楚。但对普通用户来说,现在门槛还比较高,需要配置环境、连接ADB,不是开箱即用的。等云服务上线后体验应该会好很多。
不能。DroidRun是手机自动化工具,只负责操作手机上的App,和生成PPT没有任何关系。
也不能。它不生成任何内容,只是执行操作指令。你可以用它控制视频剪辑App完成一些自动化操作,但它本身不生成视频。
没有传统意义上的对话长度限制。它处理的是单条指令或者脚本,每条指令都独立处理。但如果你写了一个很长的自动化脚本,脚本本身的长度受限于Python文件大小和模型上下文窗口,不过这对正常使用来说基本不是问题。
| 分享笔记 (共有 篇笔记) |