项目介绍:
传统的浏览器自动化方法需要为网站编写自定义脚本,通常依赖于 DOM 解析和基于 XPath 的交互,但只要网站布局发生变化,这些方法就会中断。
Skyvern 不仅仅依赖代码定义的 XPath 交互,还依赖于计算机视觉和 LLM 之外的提示来实时解析视口中的项目,创建交互计划并与它们交互。
这种方法给我们带来了一些好处:
- Skyvern 可以在从未见过的网站上运行,因为它能够将视觉元素映射到完成工作流程所需的操作,而无需任何定制代码
- Skyvern 不受网站布局变化的影响,因为我们的系统在尝试导航时不需要预先确定的 XPath 或其他选择器
- Skyvern 能够采用单一工作流程并将其应用于大量网站,因为它能够推理完成工作流程所需的交互
- Skyvern 利用 LLM 通过交互进行推理,以确保我们能够涵盖复杂的情况。示例包括:
- 如果你想从 Geico 获得汽车保险报价,那么一个常见问题的答案“你 18 岁有资格开车吗?”可以从司机在 16 岁时获得驾照推断出来
- 如果你正在进行竞争对手分析,那么你就会发现 7/11 商店出售的 Arnold Palmer 22 盎司罐装啤酒几乎肯定与 Gopuff 商店出售的 23 盎司罐装啤酒是同一款产品(尽管尺寸略有不同,这可能是舍入误差!)
项目链接:
Skyvern