Skyvern: LLM 및 컴퓨터 비전으로 브라우저 기반 워크플로 자동화하기

최신 AI 도구4개월 전 업데이트 Sharenet.ai
1.7K 0
吐司AI

일반 소개

Skyvern은 대규모 언어 모델링(LLM)과 컴퓨터 비전 기술을 사용하여 브라우저 워크플로우를 자동화하는 도구입니다. 수많은 웹사이트의 수동 작업을 효율적으로 자동화할 수 있는 간단한 API 엔드포인트를 제공하여 취약하거나 신뢰할 수 없는 자동화 솔루션을 대체할 수 있으며, 사용자 지정 코드 없이도 워크플로를 완료하는 데 필요한 작업에 시각적 요소를 자동으로 매핑하여 이전에 본 적이 없는 웹사이트에서도 작동할 수 있습니다.

Skyvern은 여러 에이전트가 작업 목표에 대해 생각하고 행동하는 과정을 완전히 자동화하는 비전 기능을 갖춘 BabyAGI 및 AutoGPT와 유사합니다.

Skyvern:使用LLM和计算机视觉自动化基于浏览器工作流

Skyvern 온라인 경험: https://www.skyvern.com/

 

Skyvern 기능 목록

  • 브라우저 워크플로 자동화LLM 및 컴퓨터 비전 기술을 통해 브라우저에서 다양한 작업을 자동화합니다.
  • API 엔드포인트: 간편한 통합 및 호출을 위한 간단한 API 인터페이스를 제공합니다.
  • 사용자 지정 코드 필요 없음각 사이트마다 사용자 지정 스크립트를 작성할 필요가 없으며 적응력이 뛰어납니다.
  • 웹 레이아웃 변경에 대한 저항: 고정된 XPath 또는 선택기에 의존하지 않으며 페이지 레이아웃 변경에 대처할 수 있습니다.
  • 대규모 애플리케이션단일 워크플로를 여러 사이트에 적용할 수 있는 기능입니다.
  • 지능형 상호 작용복잡한 인터랙션 시나리오를 처리하기 위해 LLM을 사용한 추론.

 

도움말 사용

설치 프로세스

  1. 환경 준비::
    • Python 3.11 이상이 설치되어 있는지 확인합니다.
    • 시 종속성 관리 도구를 설치합니다.
    • PostgreSQL 데이터베이스를 설치합니다.
    • Node.js 환경을 설치합니다.
    • Docker 원클릭 배포 지원
  2. 소스 코드 복제::
    git clone https://github.com/skyvern-ai/skyvern.git
    cd skyvern
    
  3. 종속성 설치::
    ./setup.sh
    
  4. 환경 변수 구성::
    • 수정 .env 파일을 열고 필요한 API 키와 구성 매개변수를 입력합니다.
  5. 서비스 시작::
    docker-compose up -d
    

시각화 작업

Skyvern에서 표시되는 정보를 이해하는 방법

결과 시각화

Skyvern에는 작업의 성과를 파악하는 데 도움이 되는 시각화 도구가 제공됩니다. 먼저 작업 기록 페이지로 이동하여 원하는 작업을 클릭해 보세요.

Skyvern:使用LLM和计算机视觉自动化基于浏览器工作流

 

rig

Skyvern에서 수행한 각 작업은 작업 뷰어에서 볼 수 있으며 작업 수행 후 화면 상태의 스크린샷이 함께 제공됩니다.

Skyvern:使用LLM和计算机视觉自动化基于浏览器工作流

 

녹화(비디오 또는 오디오)

각 Skyvern 작업에는 전체 작업(엔드 투 엔드)의 녹화본이 포함되어 있습니다. 녹화를 보려면 녹화 탭을 클릭하세요.

Skyvern:使用LLM和计算机视觉自动化基于浏览器工作流

 

미션 매개 변수

작업 매개변수는 URL, 추출 규칙 및 기타 관련 정보를 포함하여 사용자가 Skyvern에 제공하는 입력값입니다.

Skyvern:使用LLM和计算机视觉自动化基于浏览器工作流

 

진단 로그

진단 탭에는 주석이 달린 스크린샷, 작업 스크린샷, 요소 트리, 힌트, 작업 목록, 페이지 HTML, 원시 LLM(대규모 언어 모델) 요청 등 Skyvern에서 처리하는 데 사용하는 정보가 포함되어 있습니다.

Skyvern:使用LLM和计算机视觉自动化基于浏览器工作流

 

워크플로

워크플로 - 여러 작업을 함께 연결하기

워크플로는 여러 데이터 덩어리를 서로 연결하는 것을 의미합니다. 여러 작업을 연속적으로 호출하고, 조건부 논리를 수행하고, 데이터를 CSV로 추출하는 등의 작업을 상상해 보세요. 이러한 모든 아이디어는 워크플로우 기능에서 지원됩니다.

모든 워크플로는 다음과 같이 시작됩니다. YAML 형식 정의가 있지만, 새 버전은 여러 구성 요소를 서로 연결하여 정의된 출력을 생성할 수 있는 그래픽 인터페이스를 제공합니다.

Skyvern:使用LLM和计算机视觉自动化基于浏览器工作流

 

지원되는 모듈

  1. 태스크 블록 마법 Skyvern은 웹사이트를 탐색하여 조치를 취하거나 정보를 추출합니다.
  2. ForLoopBlock
  3. CodeBlock
  4. 텍스트 프롬프트 블록
  5. 다운로드ToS3Block
  6. UploadToS3Block
  7. SendEmailBlock
  8. 파일 파서 블록

 

작업 블록 입력

  1. URL (일반적으로 필수). Skyvern 에이전트의 시작점은 자동화하려는 대상 웹사이트라는 것이 가장 이상적입니다.
    • 워크플로 화면에서 이 입력을 비워두면 이전 노드가 멈춘 곳에서 계속 진행됩니다. 탐색 대상의 목적은 상담원의 시작점을 설정하거나 재설정하는 것입니다.
    • 첫 번째 작업 블록에서 사이트에 로그인한 경우 로그인한 후 계속하려면 두 번째 블록에서 URL을 비워 두는 것이 좋습니다.
  2. 탐색 목표 (일반적으로 필수). 스카이번이 탐색 중인 위치와 수행 중인 작업에 대한 자세한 설명입니다. 명확한 탐색 목표는 단계별로 세분화된 단일 목표여야 합니다. 여러 개의 목표를 제공하지 마세요. 목표 완료를 지정하려면 "완료"를 사용하거나 목표를 중단하려면 "종료"를 사용해야 합니다!
    • 탐색 타겟은 URL을 로드하는 데 사용되지 않으므로 이 필드에 "사이트 A 방문"을 입력하면 원하는 효과를 얻을 수 없습니다!
    • 작업을 종료하면 Skyvern에서 내비게이션이 중지된 이유를 설명합니다.
    • 다른 위치로 이동하지 않고 Skyvern에서 데이터만 추출하려는 경우 이 필드를 생략할 수 있습니다.
  3. 데이터 추출 목표 (선택 사항). Skyvern에서 내비게이션 위치 및 동작 외에 추출하여 반환하는 데이터가 있나요? 올바른 데이터 추출 목표는 Skyvern이 사용자에게 반환하는 데이터를 명시해야 합니다.
    • 데이터 추출은 스카이번이 탐색을 완료한 후에만 수행된다는 점에 유의하세요!
  4. 정보 추출 모드 (선택 사항). 데이터 추출 목표가 있는 경우 일부 사용자는 내부 목적으로 특정 형식의 데이터가 필요할 수 있습니다. 탐색 로드는 데이터 반환 형식을 지정하기 위해 JSON 형식 사양을 허용합니다.
  5. 최대 지원 단계 수 (선택 사항). 일부 사용자는 작업의 단계 수에 따라 비용을 제한하고자 합니다.
  6. 최대 재시도 횟수 (선택 사항). 단계 실패 시 허용되는 재시도 횟수
  7. 다운로드가 완료되면 완료됩니다. (선택 사항). 파일이 다운로드된 후 Skyvern이 작업을 완료하도록 허용하기
  8. 파일 접미사 (선택 사항). 다운로드한 파일에 첨부된 식별자
  9. TOTP URL 및 TOTP 식별자 (선택 사항). 2FA용 TOTP 코드를 저장할 수 있는 내부 시스템이 있는 경우 이 URL은 해당 저장소를 호출합니다. 식별자는 코드를 작업과 연결하므로 여러 작업을 동시에 실행하는 경우 중요합니다. 워크플로에서 2FA 획득을 설정하려는 경우에는 문의하시기 바랍니다..
  10. 매개변수 (선택 사항). 매개변수는 실행을 지정하는 사용자 지정 자리 표시자입니다. 매개변수는 워크플로 매개변수, API 호출을 통해 전달된 매개변수 또는 이전 작업 블록에서 가져온 출력 매개변수일 수 있습니다. 지정된 경우 이러한 매개변수는 Skyvern에서 탐색, 양식 작성 또는 사이트의 추가 작업에 영향을 미치는 데 사용됩니다.

 

 

 

작업 API 사용 흐름(예시)

작업 API는 다음 문서에 자세히 설명되어 있습니다.

  1. 작업 만들기::
    • 대상 URL과 작업 대상을 지정하여 API 엔드포인트를 통해 작업을 만듭니다.
    • 요청 예시:
      {
      "url": "https://example.com",
      "navigation_goal": "填写表单并提交",
      "data_extraction_goal": "提取提交后的确认信息"
      }
  2. 모니터링 작업::
    • Skyvern에서 제공하는 실시간 모니터링 기능을 사용하여 작업이 어떻게 수행되고 있는지 확인하세요.
    • 브라우저를 통한 액세스 http://localhost:8080 실시간 작업 보기.
  3. 데이터 추출::
    • 데이터 추출 모드와 형식을 지정하면 Skyvern이 자동으로 데이터를 추출하여 반환합니다.
    • 요청 예시:
      {
      "url": "https://example.com/data",
      "data_extraction_schema": {
      "name": "string",
      "email": "string",
      "phone": "string"
      }
      }
  4. 파일 다운로드::
    • 파일 다운로드 대상을 지정하면 Skyvern이 자동으로 파일을 다운로드하고 다운로드 링크를 제공합니다.
    • 요청 예시:
      {
      "url": "https://example.com/files",
      "file_download_goal": "下载所有PDF文件"
      }

 

일반적인 문제

  • 인증은 어떻게 처리되나요? Skyvern은 비밀번호 관리자 통합 및 2단계 인증(2FA)을 포함한 여러 인증 방법을 지원합니다. 작업을 만들 때 navigation_payload 신원 정보를 입력합니다.
  • 복잡한 다단계 워크플로를 어떻게 처리하시나요? Skyvern은 여러 작업을 워크플로로 묶어 API 엔드포인트를 통해 각 작업을 순차적으로 실행하여 복잡한 운영 프로세스를 완료할 수 있도록 지원합니다.
© 저작권 정책
AiPPT

관련 문서

댓글 없음

없음
댓글 없음...