详情介绍
UI-TARS是由字节跳动豆包大模型团队开发的一款开源多模态智能体模型,名字来源于电影《星际穿越》中的TARS机器人,寓意着高度的智能和自主思考能力。它的核心创新在于采用纯视觉驱动路线,不依赖读取网页源码或控件ID,而是直接像人一样观察屏幕像素图像,理解界面元素并执行操作。
从技术演进来看,UI-TARS经历了多次迭代。2025年1月,字节与清华合作开源初代版本,成为国产纯视觉GUI智能体中首个在权威基准测试中超越GPT-4o的项目。同年4月,UI-TARS-1.5发布,通过强化学习增强高阶推理能力,让模型在“行动”前先进行“思考”。9月,UI-TARS-2推出,成为豆包手机的核心底层技术,打通了文件系统与沙盒平台,将浏览器、命令行、工具调用全量整合。
目前,UI-TARS在GitHub上已获得超过26k Star,登顶热榜。它提供了多种模型尺寸(2B、7B、72B)供用户选择,并包含两个主要项目:Agent TARS支持一键式CLI部署,可在有界面或面的环境运行;UI-TARS-desktop则是一个桌面应用程序,方便普通用户直接安装使用。
官网入口地址
下载地址
开源项目地址:https://github.com/bytedance/UI-TARS
桌面版客户端:https://github.com/bytedance/UI-TARS-desktop
Hugging Face体验地址:https://huggingface.co/spaces/bytedance-research/UI-TARS
功能介绍
纯视觉驱动核心能力
UI-TARS的特点是纯视觉驱动。传统自动化工具需要扒网页源码、记控件编号,界面稍微改动脚本就失效。而UI-TARS内置视觉大模型,直接像人眼一样观察屏幕,不管软件有没有开放API、界面有多复杂,只要人能看清菜单和按钮,它也能看清并操作。
多平台统一操作
UI-TARS支持跨平台的统一动作空间,涵盖桌面操作(鼠标点击、拖拽、键盘输入)、移动设备操作(长按、打开应用)以及浏览器自动化等场景。它定义了一个标准化的动作空间,通过真实轨迹学习提升动作可控性与执行精度。
System 2推理机制
UI-TARS-1.5引入了“思考-再行动”机制,在执行动作前先生成一段中间推理过程,模拟人类思考流程。这让模型能够进行多步任务分解、反思决策和里程碑识别,在复杂任务中表现出更好的稳定性和泛化能力。
可自我演化的训练范式
通过自动化的交互轨迹采集与反思式训练,模型能持续从错误中改进,适应复杂环境变化。团队利用数百台虚拟机自动收集交互轨迹,通过多阶段过滤、反思调优和直接偏好优化,实现模型的持续迭代。
多种模型尺寸选择
UI-TARS提供2B、7B和72B三种参数规模的模型。7B模型适合大多数用户,72B模型性能但对硬件要求较高,2B模型则适合资源受限的环境。用户可根据自己的硬件配置灵活选择。
游戏与开放环境交互能力
UI-TARS-1.5首次展现了在游戏中的长时推理能力。团队在poki.com上选取14款小游戏进行测试,并在Minecraft《我的世界》中评估开放环境交互能力。在MineRL标准评测任务中,UI-TARS在两个任务中均取得成功率。
精准GUI定位
在GUI Grounding能力评估中,UI-TARS-1.5在高难度的ScreenSpotPro上的准确率达到61.6%,远超Claude的27.7%和OpenAI CUA的23.4%。这意味着它能精准识别屏幕上的按钮、菜单等元素位置并正确操作。
混合GUI中心环境
UI-TARS-2构建了混合GUI中心环境,通过SDK把文件系统、终端命令以及外部工具都接入进来,让图形界面操作可以和系统级资源打通,不再局限于简单的点击滑动。
多工具协同
UI-TARS集成了搜索、浏览器、文件、命令等多种工具,可以完成复杂任务链,比如搜索资料→保存到文件→发邮件这样的多步骤工作流程。
应用场景
个人办公自动化
在日常办公中,你可以让UI-TARS帮你完成重复性操作,比如批量处理文件、填写表单、整理文档。只需用自然语言描述任务,它就能自动执行鼠标点击、键盘输入等操作。
浏览器自动化与网页操作
UI-TARS可以操作浏览器完成网页跳转、信息提取、表单填写等任务。对于需要定期从网站抓取数据的场景,比如电商价格监控、新闻聚合,它能大幅提升效率。
手机操作与跨应用任务
UI-TARS是豆包手机的核心底层技术,支持跨应用自动化执行任务。比如你可以让它一次性完成在飞书上请假、提交差旅申请、预订高铁票等复杂操作,它会在多个应用间自动切换完成任务。
游戏辅助与测试
UI-TARS-1.5展示了玩游戏的潜力,可以在多款小游戏中与人类一样操作。这对游戏测试、AI训练数据采集等场景很有价值。
代码开发辅助
开发者可以在Cursor、Cline等工具中集成UI-TARS,让AI帮助操作开发环境,比如从GitHub拉取代码、运行测试脚本、调试页面等。
企业数据集成与流程自动化
企业可以将内部系统通过UI-TARS自动化,让员工用自然语言查询数据库、生成报表,无需复杂的技术操作,降低使用门槛。
研究与教育
研究人员可以用UI-TARS采集交互数据、验证算法;教育工作者可以构建互动式学习环境,让学生通过AI助手操作教学软件。
必要信息补充
定价模式
UI-TARS开源免费,无论是模型本身还是桌面客户端,都可以从GitHub直接下载使用,无需付费。如果通过Hugging Face等平台调用API,涉及平台自身的计费规则,这与字节跳动无关。豆包手机中集成的UI-TARS是闭源优化版本,手机本身需要购买,但技术基础是开源的。
开发者背景
UI-TARS由字节跳动豆包大模型团队与清华大学联合开发。字节在AI领域的布局广泛,UI-TARS是在系统级GUI智能体赛道近两年布局的成果,已成为豆包手机、豆包电脑版等产品的核心技术支撑。
安全与隐私设计
UI-TARS在隐私保护方面做了专门设计。豆包手机助手在操作时采用“Filtered”视觉管道,截屏只包含目标应用界面,无法监控视频通话等隐私内容。后台有一个独立的Virtual Display供Agent执行任务,不与用户前台界面互相干扰。在遇到支付、身份验证等敏感操作时,任务会暂停交由人工接管。同时,官方主动限制了部分能力,包括禁止刷分、刷激励场景以及暂时下线操作银行、支付类APP的能力。
硬件要求
不同尺寸模型对硬件要求不同。7B模型建议至少8GB显存,72B模型需要较高端硬件支持。如果使用UI-TARS-desktop桌面版,需要确保系统满足基本配置,并在macOS或Windows上正确配置权限。
版本演进
-
初代UI-TARS(2025年1月):与清华合作开源,奠定感知、动作、推理、记忆四大能力
-
UI-TARS-1.5(2025年4月):引入强化学习,增强推理能力,支持游戏交互
-
UI-TARS-2(2025年9月):重大升级,整合文件系统和工具调用,成为豆包手机核心技术
应用示例
以在桌面版使用为例:安装UI-TARS-desktop后,打开应用选择操作模式(本地计算机或浏览器),然后在输入框用自然语言描述任务,比如“帮我打开Chrome浏览器,搜索今天北京的天气,并把结果保存到桌面的weather.txt文件”,模型就会自动执行一系列操作。对于开发者,可以通过CLI方式部署Agent TARS,选择火山引擎、OpenAI或Anthropic的模型服务进行集成。
UI-TARS常见问题
UI-TARS是由字节跳动豆包大模型团队开发的,初期与清华大学合作开源。它是字节在系统级GUI智能体赛道上布局近两年的重要成果,现在已经成了豆包手机和豆包电脑版的核心技术支撑。
UI-TARS的官网是https://seed-tars.com/ 如果你想在线快速体验,可以去Hugging Face上的演示空间https://huggingface.co/spaces/bytedance-research/UI-TARS 不用安装就能试玩。不过完整功能还是建议下载桌面版或者自己部署。
你可以把UI-TARS理解成一个能看懂屏幕的AI打工人。你只要说句话告诉它想干啥,它就能看着你的电脑屏幕,自己动鼠标、敲键盘、点按钮,帮你完成各种操作。它不依赖软件有没有开放接口,只要人眼能看见的界面,它就能操作,背后的核心技术是纯视觉驱动的多模态智能体模型。
用起来挺简单的。普通用户可以直接下载UI-TARS-desktop桌面客户端,安装后打开,在输入框里用大白话描述任务,比如帮我在浏览器里订一张去北京的高铁票,它就会自动操作。开发者可以走技术路线,去GitHub克隆项目,用命令行部署Agent TARS,然后集成到自己的应用里。不管哪种方式,第一次用的时候记得给好权限,比如屏幕录制和辅助功能权限。
免费开源!不管是模型权重还是桌面客户端,都可以从GitHub直接下载,不用花一分钱。字节跳动把这套技术开源出来,就是想吸引更多开发者和研究者一起参与改进。当然如果你用第三方云服务部署,云厂商会收算力费,但这和字节没关系。
安全方面字节做了不少功课。它操作手机时有个独立的后台屏幕,不会干扰你前台用手机,也看不到你的隐私内容比如视频通话。遇到支付、输密码这种敏感操作,它会暂停让你自己来。另外官方还主动限制了它的一些能力,比如不能用来刷游戏分、不能操作银行支付类APP。不过毕竟是能操作你电脑的东西,建议从官方GitHub下载,别用不明来源的版本。
给你分享几个实用小技巧。第一,描述任务要具体,别只说帮我查东西,说打开Chrome搜索北京天气把结果存桌面,这样成功率更高。第二,在macOS上用记得先把辅助功能和屏幕录制权限开好,很多人卡在这一步。第三,如果电脑配置一般,用7B模型就够了,不用硬上72B。第四,遇到识别不准时,可以手动指定关注区域,比如说只关注浏览器窗口。第五,复杂任务可以开step-by-step模式,让每步都让你确认,防止出错。
特色就是纯视觉驱动,不依赖源码和接口,啥软件都能操作。功能上它能点鼠标、敲键盘、拖拽滚动、长按屏幕,覆盖了桌面、手机、浏览器全场景。最有意思的是它还能玩游戏,在Minecraft里挖方块打怪都不在话下。实际用途也很多,比如帮你填表单、整理文件、跨APP操作,甚至可以做游戏测试。
数据安全分两方面说。如果你是本地部署,所有操作都在你自己电脑上,截屏和指令都不出设备,安全性很高。如果你用豆包手机那种云端增强版,字节做了隔离设计,Agent在独立虚拟屏上运行,截不到你的视频通话、支付密码这些敏感内容。而且敏感操作会交还给你手动完成。整体来说设计上挺注重隐私的,但建议还是别让它处理特别敏感的信息。
从GitHub上26k star和登顶热榜来看,大家反响很不错。实际体验上,简单任务比如打开网页、搜索东西,基本都能一次搞定。复杂任务比如跨应用操作,成功率也还可以。不过毕竟是AI,偶尔会点错地方或者理解偏差,需要多试几次。对程序员来说开源可定制是加分项,对普通用户来说桌面版安装配置稍微有点门槛,但跟着教程走也不难。
UI-TARS本身不是生成PPT的,它是帮你操作软件的。你可以让它打开PowerPoint或者WPS,帮你新建幻灯片、输入文字、插入图片,一步步把PPT做出来。比如你跟它说帮我做个5页的公司介绍PPT,封面用蓝色,它会打开软件按你的要求操作。生成内容还是靠你的指令,它负责动手执行。
跟做PPT类似,UI-TARS不直接生成视频画面,但它可以操作视频编辑软件。比如你让它打开剪映,导入某个文件夹的视频,添加字幕和背景音乐,然后导出,它就能帮你完成这一整套操作。如果你想生成AI视频,需要结合他生成工具,UI-TARS负责调用这些工具帮你干活。
UI-TARS主要是在操作屏幕,不是和你聊天,所以不存在传统意义上的对话长度限制。它的限制在于任务步骤数量,比如有些任务需要很多步操作,你可以设置循环次数防止它死循环,默认100步,建议设成30到50步就够了。如果任务特别长,它也能持续运行,只要不超出系统的token限制。
| 分享笔记 (共有 篇笔记) |