TankWork:通过语音和文字操作电脑,并提供实时语音反馈的智能体

최신 AI 도구4 개월 전에 게시 됨 Sharenet.ai
817 0
Trae

일반 소개

TankWork是一个开源的桌面代理框架,旨在通过计算机视觉和系统级交互,使AI能够感知和控制您的电脑。该框架允许代理通过语音和文本命令直接控制计算机,处理实时屏幕内容,并提供连续的音频视觉反馈和操作日志。TankWork特别适合开发人员和研究人员,帮助他们创建能够真正理解、分析和与计算机界面交互的自主桌面代理。

TankWork:通过语音和文字操作电脑,并提供实时语音反馈的智能体

 

기능 목록

  • 直接电脑控制:通过语音和文本命令执行操作
  • 计算机视觉分析:实时屏幕内容处理
  • 语音交互:使用ElevenLabs进行自然语言处理
  • 可定制代理:配置个性和技能
  • 实时反馈:音频视觉更新和日志记录

 

도움말 사용

설치 프로세스

  1. 安装前提条件::
    • 安装Anaconda(推荐用于依赖管理)
    • 访问终端/命令提示符
  2. 클론 창고::
   git clone https://github.com/AgentTankOS/tankwork.git
cd tankwork
  1. 종속성 설치::
   pip install --upgrade pip setuptools wheel
pip install -r requirements.txt
  1. 구성 환경::
    • 在项目根目录创建.env문서화:
     cp .env.example .env
    
    • 添加API密钥和设置到.env文件中:
     GEMINI_API_KEY=your_api_key
    OPENAI_API_KEY=your_api_key
    ELEVENLABS_API_KEY=your_api_key
    ANTHROPIC_API_KEY=your_api_key
    ELEVENLABS_MODEL=eleven_flash_v2_5
    COMPUTER_USE_IMPLEMENTATION=tank
    COMPUTER_USE_MODEL=claude-3-5-sonnet-20241022
    COMPUTER_USE_MODEL_PROVIDER=anthropic
    NARRATIVE_LOGGER_NAME=ComputerUse.Tank
    NARRATIVE_MODEL=gpt-4o
    NARRATIVE_TEMPERATURE=0.6
    NARRATIVE_MAX_TOKENS=250
    LOG_LEVEL=INFO
    
  2. 애플리케이션 실행::
   python main.py

사용 프로세스

  1. 电脑控制模式::
    • 通过文本输入或语音命令进行基于命令的电脑控制。
    • 例如,您可以说“打开浏览器”或输入“open browser”来启动浏览器。
  2. 计算机视觉分析::
    • 实时处理屏幕内容,识别并响应屏幕上的变化。
    • 例如,当屏幕上出现特定图像时,代理可以自动执行预设操作。
  3. 语音交互::
    • 使用ElevenLabs的自然语言处理功能,通过语音与代理进行互动。
    • 例如,您可以询问代理当前的天气情况,代理会通过语音回复。
  4. 定制代理::
    • 配置代理的个性和技能,以满足特定需求。
    • 例如,您可以设置代理在特定时间执行特定任务,如每天早上8点打开邮件客户端。
  5. 实时反馈::
    • 代理会通过音频和视觉方式提供实时更新和操作日志,帮助用户了解当前的操作状态。
    • 例如,当代理执行某个命令时,会通过语音告知用户操作结果。

通过以上步骤,您可以轻松安装和使用TankWork,充分利用其强大的功能来控制和管理您的电脑。

© 저작권 정책
AiPPT

관련 문서

댓글 없음

없음
댓글 없음...