用起来挺简单的。普通用户可以直接下载UI-TARS-desktop桌面客户端，安装后打开，在输入框里用大白话描述任务，比如帮我在浏览器里订一张去北京的高铁票，它就会自动操作。开发者可以走技术路线，去GitHub克隆项目，用命令行部署Agent TARS，然后集成到自己的应用里。不管哪种方式，第一次用的时候记得给好权限，比如屏幕录制和辅助功能权限。

从GitHub上26k star和登顶热榜来看，大家反响很不错。实际体验上，简单任务比如打开网页、搜索东西，基本都能一次搞定。复杂任务比如跨应用操作，成功率也还可以。不过毕竟是AI，偶尔会点错地方或者理解偏差，需要多试几次。对程序员来说开源可定制是加分项，对普通用户来说桌面版安装配置稍微有点门槛，但跟着教程走也不难。

字节跳动UI-TARS：让AI像人一样看懂屏幕并操作电脑的纯视觉智能体-代码号

Name: UI-TARS
Author: 原创

UI-TARS是由字节跳动豆包大模型团队开发的一款开源多模态智能体模型，名字来源于电影《星际穿越》中的TARS机器人，寓意着高度的智能和自主思考能力。它的核心创新在于采用纯视觉驱动路线，不依赖读取网页源码或控件ID，而是直接像人一样观察屏幕像素图像，理解界面元素并执行操作。

从技术演进来看，UI-TARS经历了多次迭代。2025年1月，字节与清华合作开源初代版本，成为国产纯视觉GUI智能体中首个在权威基准测试中超越GPT-4o的项目。同年4月，UI-TARS-1.5发布，通过强化学习增强高阶推理能力，让模型在“行动”前先进行“思考”。9月，UI-TARS-2推出，成为豆包手机的核心底层技术，打通了文件系统与沙盒平台，将浏览器、命令行、工具调用全量整合。

目前，UI-TARS在GitHub上已获得超过26k Star，登顶热榜。它提供了多种模型尺寸（2B、7B、72B）供用户选择，并包含两个主要项目：Agent TARS支持一键式CLI部署，可在有界面或面的环境运行；UI-TARS-desktop则是一个桌面应用程序，方便普通用户直接安装使用。

官网入口地址

官网入口：https://seed-tars.com/

下载地址

开源项目地址：https://github.com/bytedance/UI-TARS
桌面版客户端：https://github.com/bytedance/UI-TARS-desktop
Hugging Face体验地址：https://huggingface.co/spaces/bytedance-research/UI-TARS

功能介绍

纯视觉驱动核心能力
UI-TARS的特点是纯视觉驱动。传统自动化工具需要扒网页源码、记控件编号，界面稍微改动脚本就失效。而UI-TARS内置视觉大模型，直接像人眼一样观察屏幕，不管软件有没有开放API、界面有多复杂，只要人能看清菜单和按钮，它也能看清并操作。

多平台统一操作
UI-TARS支持跨平台的统一动作空间，涵盖桌面操作（鼠标点击、拖拽、键盘输入）、移动设备操作（长按、打开应用）以及浏览器自动化等场景。它定义了一个标准化的动作空间，通过真实轨迹学习提升动作可控性与执行精度。

System 2推理机制
UI-TARS-1.5引入了“思考-再行动”机制，在执行动作前先生成一段中间推理过程，模拟人类思考流程。这让模型能够进行多步任务分解、反思决策和里程碑识别，在复杂任务中表现出更好的稳定性和泛化能力。

可自我演化的训练范式
通过自动化的交互轨迹采集与反思式训练，模型能持续从错误中改进，适应复杂环境变化。团队利用数百台虚拟机自动收集交互轨迹，通过多阶段过滤、反思调优和直接偏好优化，实现模型的持续迭代。

多种模型尺寸选择
UI-TARS提供2B、7B和72B三种参数规模的模型。7B模型适合大多数用户，72B模型性能但对硬件要求较高，2B模型则适合资源受限的环境。用户可根据自己的硬件配置灵活选择。

游戏与开放环境交互能力
UI-TARS-1.5首次展现了在游戏中的长时推理能力。团队在poki.com上选取14款小游戏进行测试，并在Minecraft《我的世界》中评估开放环境交互能力。在MineRL标准评测任务中，UI-TARS在两个任务中均取得成功率。

精准GUI定位
在GUI Grounding能力评估中，UI-TARS-1.5在高难度的ScreenSpotPro上的准确率达到61.6%，远超Claude的27.7%和OpenAI CUA的23.4%。这意味着它能精准识别屏幕上的按钮、菜单等元素位置并正确操作。

混合GUI中心环境
UI-TARS-2构建了混合GUI中心环境，通过SDK把文件系统、终端命令以及外部工具都接入进来，让图形界面操作可以和系统级资源打通，不再局限于简单的点击滑动。

多工具协同
UI-TARS集成了搜索、浏览器、文件、命令等多种工具，可以完成复杂任务链，比如搜索资料→保存到文件→发邮件这样的多步骤工作流程。

应用场景

个人办公自动化
在日常办公中，你可以让UI-TARS帮你完成重复性操作，比如批量处理文件、填写表单、整理文档。只需用自然语言描述任务，它就能自动执行鼠标点击、键盘输入等操作。

浏览器自动化与网页操作
UI-TARS可以操作浏览器完成网页跳转、信息提取、表单填写等任务。对于需要定期从网站抓取数据的场景，比如电商价格监控、新闻聚合，它能大幅提升效率。

手机操作与跨应用任务
UI-TARS是豆包手机的核心底层技术，支持跨应用自动化执行任务。比如你可以让它一次性完成在飞书上请假、提交差旅申请、预订高铁票等复杂操作，它会在多个应用间自动切换完成任务。

游戏辅助与测试
UI-TARS-1.5展示了玩游戏的潜力，可以在多款小游戏中与人类一样操作。这对游戏测试、AI训练数据采集等场景很有价值。

代码开发辅助
开发者可以在Cursor、Cline等工具中集成UI-TARS，让AI帮助操作开发环境，比如从GitHub拉取代码、运行测试脚本、调试页面等。

企业数据集成与流程自动化
企业可以将内部系统通过UI-TARS自动化，让员工用自然语言查询数据库、生成报表，无需复杂的技术操作，降低使用门槛。

研究与教育
研究人员可以用UI-TARS采集交互数据、验证算法；教育工作者可以构建互动式学习环境，让学生通过AI助手操作教学软件。

必要信息补充

定价模式
UI-TARS开源免费，无论是模型本身还是桌面客户端，都可以从GitHub直接下载使用，无需付费。如果通过Hugging Face等平台调用API，涉及平台自身的计费规则，这与字节跳动无关。豆包手机中集成的UI-TARS是闭源优化版本，手机本身需要购买，但技术基础是开源的。

开发者背景
UI-TARS由字节跳动豆包大模型团队与清华大学联合开发。字节在AI领域的布局广泛，UI-TARS是在系统级GUI智能体赛道近两年布局的成果，已成为豆包手机、豆包电脑版等产品的核心技术支撑。

安全与隐私设计
UI-TARS在隐私保护方面做了专门设计。豆包手机助手在操作时采用“Filtered”视觉管道，截屏只包含目标应用界面，无法监控视频通话等隐私内容。后台有一个独立的Virtual Display供Agent执行任务，不与用户前台界面互相干扰。在遇到支付、身份验证等敏感操作时，任务会暂停交由人工接管。同时，官方主动限制了部分能力，包括禁止刷分、刷激励场景以及暂时下线操作银行、支付类APP的能力。

硬件要求
不同尺寸模型对硬件要求不同。7B模型建议至少8GB显存，72B模型需要较高端硬件支持。如果使用UI-TARS-desktop桌面版，需要确保系统满足基本配置，并在macOS或Windows上正确配置权限。

版本演进

初代UI-TARS（2025年1月）：与清华合作开源，奠定感知、动作、推理、记忆四大能力
UI-TARS-1.5（2025年4月）：引入强化学习，增强推理能力，支持游戏交互
UI-TARS-2（2025年9月）：重大升级，整合文件系统和工具调用，成为豆包手机核心技术

应用示例
以在桌面版使用为例：安装UI-TARS-desktop后，打开应用选择操作模式（本地计算机或浏览器），然后在输入框用自然语言描述任务，比如“帮我打开Chrome浏览器，搜索今天北京的天气，并把结果保存到桌面的weather.txt文件”，模型就会自动执行一系列操作。对于开发者，可以通过CLI方式部署Agent TARS，选择火山引擎、OpenAI或Anthropic的模型服务进行集成。