Skyvern利用 LLM 和计算机视觉实现基于浏览器的工作流程自动化

2周前发布 6 0 0

Skyvern使用 LLM 和计算机视觉来自动化基于浏览器的工作流程。它提供了一个简单的 API 端点,可以完全自动化大量网站上的手动工作流程,从而取代脆弱或不可靠的自动化解决方案。

收录时间:
2024-12-08
Skyvern利用 LLM 和计算机视觉实现基于浏览器的工作流程自动化Skyvern利用 LLM 和计算机视觉实现基于浏览器的工作流程自动化
Skyvern利用 LLM 和计算机视觉实现基于浏览器的工作流程自动化

项目介绍:

传统的浏览器自动化方法需要为网站编写自定义脚本,通常依赖于 DOM 解析和基于 XPath 的交互,但只要网站布局发生变化,这些方法就会中断。

Skyvern 不仅仅依赖代码定义的 XPath 交互,还依赖于计算机视觉和 LLM 之外的提示来实时解析视口中的项目,创建交互计划并与它们交互。

这种方法给我们带来了一些好处:

  1. Skyvern 可以在从未见过的网站上运行,因为它能够将视觉元素映射到完成工作流程所需的操作,而无需任何定制代码
  2. Skyvern 不受网站布局变化的影响,因为我们的系统在尝试导航时不需要预先确定的 XPath 或其他选择器
  3. Skyvern 能够采用单一工作流程并将其应用于大量网站,因为它能够推理完成工作流程所需的交互
  4. Skyvern 利用 LLM 通过交互进行推理,以确保我们能够涵盖复杂的情况。示例包括:
    1. 如果你想从 Geico 获得汽车保险报价,那么一个常见问题的答案“你 18 岁有资格开车吗?”可以从司机在 16 岁时获得驾照推断出来
    2. 如果你正在进行竞争对手分析,那么你就会发现 7/11 商店出售的 Arnold Palmer 22 盎司罐装啤酒几乎肯定与 Gopuff 商店出售的 23 盎司罐装啤酒是同一款产品(尽管尺寸略有不同,这可能是舍入误差!)

项目链接:

Skyvern


 

相关导航