Skyvern利用 LLM 和计算机视觉实现基于浏览器的工作流程自动化

9个月前发布 135 0 0

Skyvern使用 LLM 和计算机视觉来自动化基于浏览器的工作流程。它提供了一个简单的 API 端点，可以完全自动化大量网站上的手动工作流程，从而取代脆弱或不可靠的自动化解决方案。

收录时间：

2024-12-08

打开网站手机查看

Skyvern利用 LLM 和计算机视觉实现基于浏览器的工作流程自动化

Skyvern利用 LLM 和计算机视觉实现基于浏览器的工作流程自动化

项目介绍：

传统的浏览器自动化方法需要为网站编写自定义脚本，通常依赖于 DOM 解析和基于 XPath 的交互，但只要网站布局发生变化，这些方法就会中断。

Skyvern 不仅仅依赖代码定义的 XPath 交互，还依赖于计算机视觉和 LLM 之外的提示来实时解析视口中的项目，创建交互计划并与它们交互。

这种方法给我们带来了一些好处：

Skyvern 可以在从未见过的网站上运行，因为它能够将视觉元素映射到完成工作流程所需的操作，而无需任何定制代码
Skyvern 不受网站布局变化的影响，因为我们的系统在尝试导航时不需要预先确定的 XPath 或其他选择器
Skyvern 能够采用单一工作流程并将其应用于大量网站，因为它能够推理完成工作流程所需的交互
Skyvern 利用 LLM 通过交互进行推理，以确保我们能够涵盖复杂的情况。示例包括：
1. 如果你想从 Geico 获得汽车保险报价，那么一个常见问题的答案“你 18 岁有资格开车吗？”可以从司机在 16 岁时获得驾照推断出来
2. 如果你正在进行竞争对手分析，那么你就会发现 7/11 商店出售的 Arnold Palmer 22 盎司罐装啤酒几乎肯定与 Gopuff 商店出售的 23 盎司罐装啤酒是同一款产品（尽管尺寸略有不同，这可能是舍入误差！）

项目链接：

相关导航

从零开始构建计算机系统 | Build Your Own X 教程与实践

从零开始构建计算机系统 | Build Your Own X 教程与实践

Build Your Own X 是一个开源项目，提供从零开始构建操作系统、编程语言、数据库等系统的教程。适合各个水平的开发者，帮助深入理解底层技术原理，通过实践加深技术掌握。

Olares：您的主权云，一个开源、自托管的公共云替代方案

Olares：您的主权云，一个开源、自托管的公共云替代方案

构建您的本地 AI 助手、跨地方同步数据、自行托管您的工作区、流式传输您自己的媒体等等。

开发者必备备忘单 | Awesome Cheatsheets 提供多领域快捷参考

开发者必备备忘单 | Awesome Cheatsheets 提供多领域快捷参考

Awesome Cheatsheets 是一个开源项目，汇集了各类编程语言、工具、框架和数据库的常用命令和语法，帮助开发者快速查找和高效使用技术，提升工作效率。

程序员必访的最佳网站合集 | 提升编程技能的宝贵资源

程序员必访的最佳网站合集 | 提升编程技能的宝贵资源

Best Websites a Programmer Should Visit 是一个精选的编程资源网站集合，包含了教程、工具、社区平台等，适用于不同技能水平的开发者，帮助程序员提高技术水平，解决开发难题，掌握最新技术动态。

Linux 系统学习教程 | 从基础到高级操作的完整指南

Linux 系统学习教程 | 从基础到高级操作的完整指南

Linux Tutorial 提供全面的 Linux 系统教程，适合初学者和中级开发者。通过实用的命令行技巧和操作示例，帮助用户掌握 Linux 基础知识、进程管理、网络配置等技能，提升系统管理能力。

社交媒体下载开源工具

一些能够免费下载油管、B站、抖音等平台视频下载的开源工具

高效动态网页爬虫 | Firecrawl 专为抓取 JavaScript 渲染网页设计

高效动态网页爬虫 | Firecrawl 专为抓取 JavaScript 渲染网页设计

Firecrawl 是一个高效的开源网页爬虫框架，专为抓取动态、JavaScript 渲染内容的网页而设计，支持文本、图片、视频等多种数据提取，适用于 AI 数据采集、数据分析等任务，帮助开发者自动化处理复杂的网页数据。

Scrapegraph-ai：自动化图形数据爬取平台 | 高效提取图表和关系图数据

Scrapegraph-ai：自动化图形数据爬取平台 | 高效提取图表和关系图数据

Scrapegraph-ai 是一个开源平台，帮助开发者自动化从网页中抓取图形结构数据，如图表、关系图和网络数据。支持社交网络分析、金融数据挖掘、物联网数据收集等应用，提供高效的数据抓取、清洗和处理功能。