Agent TARS:使用视觉和命令操作电脑的开源智能体

Últimas herramientas de IAActualizado hace 4 meses Sharenet.ai
781 0
吐司AI

Introducción general

Agent TARS 是一个由字节跳动开源的多模态 AI 智能体,核心特点是通过视觉理解网页内容,并结合命令行和文件系统操作,帮助用户完成复杂的电脑任务。它不像传统工具需要手动操作,而是能自动执行浏览器任务、编辑文件或运行命令。网站提供了桌面应用下载和技术文档,适合开发者或需要自动化工作流的用户。目前它处于技术预览阶段,主要支持 macOS 系统。Agent TARS 的目标是让电脑操作更智能、更高效。该项目基于 UI-TARS Desktop 进行浏览器封装,对标 Manus .

Agent TARS:使用视觉和命令操作电脑的开源智能体

 

Lista de funciones

  • 浏览器自动化:通过视觉识别网页元素,自动完成搜索、点击、填写表单等操作。
  • 命令行集成:支持直接运行系统命令,执行脚本或管理后台任务。
  • 文件系统操作:能读取、编辑或生成文件,处理数据或保存结果。
  • 任务规划与执行:分解复杂任务,自动按步骤完成,支持深度研究或重复性工作。
  • 多模态交互:结合图像、文字和代码输入,适应不同类型任务。
  • 工具扩展:集成搜索、文件编辑和模型上下文协议(MCP),提升功能灵活性。
  • 桌面应用支持:提供界面展示操作过程,方便用户实时查看和调整。

 

Utilizar la ayuda

Agent TARS 的使用分为安装和操作两部分。以下是详细步骤,让你快速上手。

Proceso de instalación

  1. 下载桌面应用
    打开官网 https://agent-tars.com/,点击“Download”按钮,跳转到 GitHub 发布页面(https://github.com/bytedance/UI-TARS-desktop/releases)。选择最新版本(如 AgentTARS-macOS-latest.dmg)下载。文件大小约几十 MB,视网络速度需 1-5 分钟。
  2. 安装到 macOS
    下载完成后,双击 .dmg 文件,弹出安装窗口。将 Agent TARS 图标拖到“应用程序”文件夹。安装过程只需几秒。完成后,在“应用程序”中找到 Agent TARS,点击打开。
  3. 设置权限
    首次启动时,macOS 会提示授予“辅助功能”权限。点击“系统设置 > 隐私与安全性 > 辅助功能”,找到 Agent TARS,开启开关。这是为了让它能控制屏幕和键盘。
  4. 配置模型和 API
    打开应用后,点击左下角设置按钮,进入配置页面。需要设置模型提供商(如 Azure OpenAI)和 API 密钥。具体步骤:

    • 在“Model Config”中选择提供商。
    • 输入你的 API 密钥(需自行从提供商获取)。
    • 如果用 Azure,还需填入 apiVersionydeploymentName responder cantando endpoint.
      保存后,应用会自动连接模型。
  5. 可选搜索配置
    如果需要网页搜索功能,进入“Search Config”,选择搜索提供商并输入 API 密钥。完成后保存。

flujo de trabajo

安装好后,Agent TARS 的主界面很简单,有输入框和操作显示区。以下是主要功能的用法。

浏览器自动化

  • mover:在输入框输入任务,如“搜索最新 AI 新闻并保存标题”。按回车键,Agent TARS 会打开内置浏览器,自动搜索并提取标题。
  • 显示:右侧窗口会实时展示浏览器操作,比如打开网页、滚动页面。
  • al final:完成后,它会将标题保存为文本文件,路径显示在界面底部。

命令行集成

  • mover:输入命令,如“列出当前文件夹文件”(macOS 下是 ls -l 的等效命令 dir)。按回车键,Agent TARS 调用终端执行。
  • 显示:命令输出会出现在界面下方,方便查看。
  • 高级用法:可输入复杂脚本,如“检查系统内存并记录”,它会运行对应命令并保存结果。

文件系统操作

  • mover:输入“新建文件 test.txt 并写入‘hello’”。按回车键,Agent TARS 创建文件并写入内容。
  • 显示:操作过程会显示在界面,完成后可点击路径查看文件。
  • 编辑文件:输入“打开 test.txt 并添加‘world’”,它会自动修改文件。

任务规划与执行

  • mover:输入复杂任务,如“研究 Python 最新版本特性并整理文档”。Agent TARS 会分解任务:搜索资料、提取信息、生成文件。
  • 显示:右侧窗口展示每步操作,如打开网页、复制文字。
  • al final:最终生成整理好的文档,保存到指定路径。

人机协作

  • 实时调整:任务执行中,可在输入框追加指令,如“再加一段例子”。Agent TARS 会根据新输入调整操作。
  • 分享结果:点击“Share”按钮,选择“Local HTML”生成操作记录文件,或配置远程服务器 URL 上传分享。

advertencia

  • Requisitos medioambientales:目前仅支持 macOS,Windows 和 Linux 版本尚未发布。
  • conexión de red:需要稳定网络以连接模型和搜索服务。
  • ajustar los componentes durante las pruebas:若功能失效(如搜索失败),检查 API 密钥是否正确,或加入 Discord 社区求助(链接在官网)。

通过这些步骤,你可以轻松使用 Agent TARS 完成从简单文件操作到复杂研究任务的各种工作。

 

escenario de aplicación

  1. 网页自动化
    用 Agent TARS 自动浏览网页,提取新闻或产品信息。比如,输入“收集最近科技新闻标题”,它会搜索并保存结果,适合市场研究或资讯整理。
  2. 任务管理
    规划复杂项目,如“制定旅行计划”,它会搜索航班、酒店信息并整理成文档。适合个人助理或项目管理。
  3. 代码辅助
    输入“生成 Python 脚本检查文件大小”,Agent TARS 会写好代码并保存,方便开发者快速生成工具。
  4. análisis de datos
    处理实时数据,如“分析网页上的股票数据并保存表格”。它会提取数据并生成文件,适合金融或市场分析。

 

CONTROL DE CALIDAD

  1. Agent TARS 是免费的吗?
    是的,它是开源项目,遵循 Apache 2.0 许可证。代码和应用可免费从 GitHub 下载使用。
  2. 支持 Windows 系统吗?
    目前仅支持 macOS,Windows 和 Linux 版本还在开发中,具体进度可关注 GitHub 更新。
  3. 需要编程知识吗?
    不需要。它用自然语言操作,普通用户也能上手。但懂编程可以更好地利用命令行功能。
  4. 如何解决搜索功能失效?
    检查“Search Config”中的 API 密钥是否正确,或者网络是否连接正常。还可加入 Discord 社区反馈问题。
© declaración de copyright
AiPPT

Artículos relacionados

Sin comentarios

ninguno
Sin comentarios...