功能介绍
评论列表

详情介绍

UI-TARS是由字节跳动豆包大模型团队开发的一款开源多模态智能体模型,名字来源于电影《星际穿越》中的TARS机器人,寓意着高度的智能和自主思考能力。它的核心创新在于采用纯视觉驱动路线,不依赖读取网页源码或控件ID,而是直接像人一样观察屏幕像素图像,理解界面元素并执行操作。

从技术演进来看,UI-TARS经历了多次迭代。2025年1月,字节与清华合作开源初代版本,成为国产纯视觉GUI智能体中首个在权威基准测试中超越GPT-4o的项目。同年4月,UI-TARS-1.5发布,通过强化学习增强高阶推理能力,让模型在“行动”前先进行“思考”。9月,UI-TARS-2推出,成为豆包手机的核心底层技术,打通了文件系统与沙盒平台,将浏览器、命令行、工具调用全量整合。

目前,UI-TARS在GitHub上已获得超过26k Star,登顶热榜。它提供了多种模型尺寸(2B、7B、72B)供用户选择,并包含两个主要项目:Agent TARS支持一键式CLI部署,可在有界面或面的环境运行;UI-TARS-desktop则是一个桌面应用程序,方便普通用户直接安装使用。

官网入口地址

官网入口:https://seed-tars.com/

下载地址

开源项目地址:https://github.com/bytedance/UI-TARS
桌面版客户端:https://github.com/bytedance/UI-TARS-desktop
Hugging Face体验地址:https://huggingface.co/spaces/bytedance-research/UI-TARS

功能介绍

纯视觉驱动核心能力
UI-TARS的特点是纯视觉驱动。传统自动化工具需要扒网页源码、记控件编号,界面稍微改动脚本就失效。而UI-TARS内置视觉大模型,直接像人眼一样观察屏幕,不管软件有没有开放API、界面有多复杂,只要人能看清菜单和按钮,它也能看清并操作。

多平台统一操作
UI-TARS支持跨平台的统一动作空间,涵盖桌面操作(鼠标点击、拖拽、键盘输入)、移动设备操作(长按、打开应用)以及浏览器自动化等场景。它定义了一个标准化的动作空间,通过真实轨迹学习提升动作可控性与执行精度。

System 2推理机制
UI-TARS-1.5引入了“思考-再行动”机制,在执行动作前先生成一段中间推理过程,模拟人类思考流程。这让模型能够进行多步任务分解、反思决策和里程碑识别,在复杂任务中表现出更好的稳定性和泛化能力。

可自我演化的训练范式
通过自动化的交互轨迹采集与反思式训练,模型能持续从错误中改进,适应复杂环境变化。团队利用数百台虚拟机自动收集交互轨迹,通过多阶段过滤、反思调优和直接偏好优化,实现模型的持续迭代。

多种模型尺寸选择
UI-TARS提供2B、7B和72B三种参数规模的模型。7B模型适合大多数用户,72B模型性能但对硬件要求较高,2B模型则适合资源受限的环境。用户可根据自己的硬件配置灵活选择。

游戏与开放环境交互能力
UI-TARS-1.5首次展现了在游戏中的长时推理能力。团队在poki.com上选取14款小游戏进行测试,并在Minecraft《我的世界》中评估开放环境交互能力。在MineRL标准评测任务中,UI-TARS在两个任务中均取得成功率。

精准GUI定位
在GUI Grounding能力评估中,UI-TARS-1.5在高难度的ScreenSpotPro上的准确率达到61.6%,远超Claude的27.7%和OpenAI CUA的23.4%。这意味着它能精准识别屏幕上的按钮、菜单等元素位置并正确操作。

混合GUI中心环境
UI-TARS-2构建了混合GUI中心环境,通过SDK把文件系统、终端命令以及外部工具都接入进来,让图形界面操作可以和系统级资源打通,不再局限于简单的点击滑动。

多工具协同
UI-TARS集成了搜索、浏览器、文件、命令等多种工具,可以完成复杂任务链,比如搜索资料→保存到文件→发邮件这样的多步骤工作流程。

应用场景

个人办公自动化
在日常办公中,你可以让UI-TARS帮你完成重复性操作,比如批量处理文件、填写表单、整理文档。只需用自然语言描述任务,它就能自动执行鼠标点击、键盘输入等操作。

浏览器自动化与网页操作
UI-TARS可以操作浏览器完成网页跳转、信息提取、表单填写等任务。对于需要定期从网站抓取数据的场景,比如电商价格监控、新闻聚合,它能大幅提升效率。

手机操作与跨应用任务
UI-TARS是豆包手机的核心底层技术,支持跨应用自动化执行任务。比如你可以让它一次性完成在飞书上请假、提交差旅申请、预订高铁票等复杂操作,它会在多个应用间自动切换完成任务。

游戏辅助与测试
UI-TARS-1.5展示了玩游戏的潜力,可以在多款小游戏中与人类一样操作。这对游戏测试、AI训练数据采集等场景很有价值。

代码开发辅助
开发者可以在Cursor、Cline等工具中集成UI-TARS,让AI帮助操作开发环境,比如从GitHub拉取代码、运行测试脚本、调试页面等。

企业数据集成与流程自动化
企业可以将内部系统通过UI-TARS自动化,让员工用自然语言查询数据库、生成报表,无需复杂的技术操作,降低使用门槛。

研究与教育
研究人员可以用UI-TARS采集交互数据、验证算法;教育工作者可以构建互动式学习环境,让学生通过AI助手操作教学软件。

必要信息补充

定价模式
UI-TARS开源免费,无论是模型本身还是桌面客户端,都可以从GitHub直接下载使用,无需付费。如果通过Hugging Face等平台调用API,涉及平台自身的计费规则,这与字节跳动无关。豆包手机中集成的UI-TARS是闭源优化版本,手机本身需要购买,但技术基础是开源的。

开发者背景
UI-TARS由字节跳动豆包大模型团队与清华大学联合开发。字节在AI领域的布局广泛,UI-TARS是在系统级GUI智能体赛道近两年布局的成果,已成为豆包手机、豆包电脑版等产品的核心技术支撑。

安全与隐私设计
UI-TARS在隐私保护方面做了专门设计。豆包手机助手在操作时采用“Filtered”视觉管道,截屏只包含目标应用界面,无法监控视频通话等隐私内容。后台有一个独立的Virtual Display供Agent执行任务,不与用户前台界面互相干扰。在遇到支付、身份验证等敏感操作时,任务会暂停交由人工接管。同时,官方主动限制了部分能力,包括禁止刷分、刷激励场景以及暂时下线操作银行、支付类APP的能力。

硬件要求
不同尺寸模型对硬件要求不同。7B模型建议至少8GB显存,72B模型需要较高端硬件支持。如果使用UI-TARS-desktop桌面版,需要确保系统满足基本配置,并在macOS或Windows上正确配置权限。

版本演进

  • 初代UI-TARS(2025年1月):与清华合作开源,奠定感知、动作、推理、记忆四大能力

  • UI-TARS-1.5(2025年4月):引入强化学习,增强推理能力,支持游戏交互

  • UI-TARS-2(2025年9月):重大升级,整合文件系统和工具调用,成为豆包手机核心技术

应用示例
以在桌面版使用为例:安装UI-TARS-desktop后,打开应用选择操作模式(本地计算机或浏览器),然后在输入框用自然语言描述任务,比如“帮我打开Chrome浏览器,搜索今天北京的天气,并把结果保存到桌面的weather.txt文件”,模型就会自动执行一系列操作。对于开发者,可以通过CLI方式部署Agent TARS,选择火山引擎、OpenAI或Anthropic的模型服务进行集成。

UI-TARS常见问题

本文标签