功能介绍
评论列表

详情介绍

Stagehand是一个重塑浏览器自动化体验的开源工具。它由Browserbase公司开发和维护,核心思想是解决传统自动化脚本脆弱、难以维护的痛点。传统工具如Playwright或Puppeteer需要开发者精确定位每一个页面元素,一旦网页结构稍有变动,脚本就失效。Stagehand引入AI层,让开发者可以用日常语言描述目标,比如“点击登录按钮”或“提取所有产品名称和价格”,由AI来负责理解和执行具体的页面交互。这种方式极大地提高了自动化脚本的鲁棒性和开发效率,特别适合处理结构动态变化或复杂的现代Web应用。

官网入口地址

根据您提供的信息,官网和开源项目地址如下,但请注意官网地址已变更。

下载地址

Stagehand是一个Node.js库,您可以通过npm或yarn等包管理器将安装到您的项目中。具体的安装命令和使用方法,需要在GitHub仓库的README文件中查看。

  • npm安装命令示例(具体命令请以官方文档为准):npm install @browserbase/stagehand

功能介绍

根据您的描述,Stagehand的功能亮点主要集中在AI与代码的融合上:

  • 代码与自然语言混合编排:这是Stagehand最核心的特性。它不强制用户二选一,而是允许在同一个脚本中无缝切换。对于稳定可靠的部分(如已知ID的元素),可以继续使用Playwright的精确代码;对于易变或难以定位的部分,则可以用自然语言指令交给AI处理。,先用代码登录,然后用AI指令“跳转到个人设置页面”。

  • AI驱动的页面导航与操作:通过page.act()这样的API,您可以传入“把鼠标悬停在第一个商品上”这样的自然语言指令。Stagehand的AI模型会理解意图,分析当前DOM结构,并执行相应的操作,如移动鼠标、触发悬停事件。

  • AI驱动的数据提取:通过page.extract()等API,您可以描述想提取的数据,“提取这篇新闻文章的作者和发布日期”。AI会智能地定位页面上的相关信息并以结构化的JSON格式返回,无需编写复杂的选择器逻辑。

  • 动作预览与缓存:为了提高可靠性和效率,Stagehand提供了在执行AI指令前进行预览的机制,让开发者确认AI理解是否正确。同时,它能够缓存常见操作的模式,避免重复调用AI,从而加快执行速度并降低成本。

  • 多模型支持:框架设计为与多种AI模型兼容,允许用户根据成本、速度或效果选择底层驱动,OpenAI的GPT系列或Anthropic的Claude系列。

应用场景

Stagehand的应用场景覆盖了传统网页自动化的各个方面,并凭借AI特性拓展了更多性:

  • 健壮的网页测试:编写更不容易因UI微调而失败的端到端测试。,测试一个购物流程,可以用AI指令“将商品加入购物车并进入结算页面”,替代一系列脆弱的点击和等待指令。

  • 智能数据抓取:从结构不规则或经常变化的网站上抓取数据。可以轻松处理各种反爬措施和动态加载的内容,专注于需要什么数据,而不是怎么找数据。

  • 工作流自动化:自动化重复的网页操作,如在多个后台系统间同步数据、自动填写复杂的多步表单、定时从SaaS平台下载报表等。

  • AI Agent的“手”和“眼”:为更高级的AI Agent提供与真实世界网页交互的能力,让Agent能通过Stagehand自主完成任务,比如根据用户指令在网站上预订酒店。

补充必要信息

  • 开发公司:Stagehand由Browserbase公司开发,该公司专注于提供基于云的浏览器基础设施和自动化解决方案。

  • 定价:Stagehand本身是开源且免费的框架(基于MIT许可证)。但请注意,使用AI功能需要您自己提供第三方AI服务(如OpenAI)的API密钥,这部分调用会产生相应费用。

  • 开源生态:作为开源项目,它鼓励社区贡献。与Playwright的深度集成意味着使用者可以充分利用Playwright庞大的生态系统和调试工具。

Stagehand常见问题

本文标签