MobileAgent:多代理协作的移动设备操作助手

MobileAgent:モバイル機器操作アシスタントのためのマルチエージェント・コラボレーション

综合介绍 MobileAgent 是一个强大的移动设备操作助手,旨在通过多代理协作和增强的视觉感知模块,提升移动设备的操作效率和自动化水平。该项目由 X-PLUG 团队开发,支持 Android 和 ...
4ヶ月前
01.1K0
TankWork:通过语音和文字操作电脑,并提供实时语音反馈的智能体

タンクワーク:音声とテキストでコンピュータを操作し、リアルタイムの音声フィードバックを提供する知的ボディ

综合介绍 TankWork是一个开源的桌面代理框架,旨在通过计算机视觉和系统级交互,使AI能够感知和控制您的电脑。该框架允许代理通过语音和文本命令直接控制计算机,处理实时屏幕内容,并提供连续的音频视觉...
4ヶ月前
08130
UI-TARS Desktop:使用自然语言控制电脑的桌面智能体应用

UI-TARS Desktop: 自然言語でコンピュータを制御するDesktop Intelligentsiaアプリケーション

综合介绍 UI-TARS Desktop 是由字节跳动开发的一款基于 UI-TARS(视觉语言模型)的图形界面代理应用。该应用允许用户通过自然语言来控制计算机,实现更直观和高效的人机交互。UI-TAR...
4ヶ月前
01.3K0
Eko:自然语言构建智能体工作流,实现桌面与浏览器自动化

Eko: デスクトップとブラウザの自動化のための自然言語によるインテリジェント・ボディ・ワークフローの構築

综合介绍 Eko 是一个生产级的 JavaScript 框架,旨在通过自然语言描述来构建高效的智能代理工作流程。它的设计使开发者能够在不深入编程的情况下,利用AI技术自动化日常任务。Eko提供了一个统...
3ヶ月前
01K0
AutoMouser:生成浏览器自动化代码,将鼠标操作通过AI转为Selenium Python脚本

AutoMouser:マウスアクションをAI経由でSelenium Pythonスクリプトに変換するブラウザ自動化コードの生成

综合介绍 AutoMouser 是一个 Chrome 扩展程序,能够智能地跟踪用户交互,并使用 OpenAI 的 GPT 模型自动生成 Selenium 测试代码。它通过记录用户的浏览器操作并将其转换...
5ヶ月前
09520
Browser Use Web UI:运行AI智能体浏览网页,让AI能够自动操作网页的开源框架

Browser Use Web UI: AIインテリジェンスがウェブをブラウズするためのオープンソースフレームワーク。

综合介绍 Browser Use Web UI是一个创新的开源项目,专注于为AI代理提供浏览器交互能力的图形化界面工具。该项目建立在 browser-use 核心框架之上,通过Gradio构建了一个用...
2ヶ月前
01.8K0
E2B Open Computer Use:E2B沙盒中安全的运行AI操作系统

E2Bオープンコンピュータの使用:E2BサンドボックスでAIオペレーティングシステムを安全に実行する

综合介绍 E2B Open Computer Use 是一个开源项目,旨在通过 E2B 桌面沙盒提供安全的云端 Linux 计算机使用体验。E2B沙盒提供了一个桌面图形环境,用户可以将其连接到任何大型...
5ヶ月前
09920
NeoAI:让AI接管电脑远程操作,使用自然语言控制电脑的开源项目

NeoAI:AIにコンピュータの遠隔操作を委ね、自然言語で制御させるオープンソースプロジェクト

综合介绍 NeoAI是一款创新的开源AI助手工具,它通过自然语言对话的方式让用户轻松控制和管理电脑。无需编写任何代码,用户只需要用日常对话的方式就能完成文件查找、任务自动化、设备管理等操作。NeoAI...
5ヶ月前
01.1K0
CogAgent:智谱开源的智能视觉语言模型,实现图形界面自动化操作

CogAgent: Smart Spectrumのグラフィカル・インターフェース自動化のためのオープンソースのインテリジェント視覚言語モデル

综合介绍 CogAgent是由清华大学数据挖掘研究组(THUDM)开发的开源视觉语言模型,旨在实现跨平台的图形用户界面(GUI)自动化操作。该模型基于CogVLM(GLM-4V-9B),支持中英文双语...
5ヶ月前
01K0
Browser-Use:构建智能网页自动化工具,让AI智能体轻松操作浏览器

Browser-Use:AIインテリジェントがブラウザを簡単に操作するためのインテリジェント・ウェブ・オートメーション・ツールの構築

综合介绍 Browser-Use是一个创新的开源网页自动化工具,专门设计用于让语言模型(LLM)能够自然地与网站进行交互。它提供了一个强大而灵活的框架,支持多种主流语言模型,包括GPT-4、Claud...
5ヶ月前
01.8K0
Project Mariner:浏览器自动化,探索未来人机交互的研究原型(未发布)

プロジェクト・マリナー:ブラウザ・オートメーション、ヒューマン・コンピュータ・インタラクションの未来を探る研究プロトタイプ(未発表)

综合介绍 Project Mariner 是 Google DeepMind 推出的一个研究原型,旨在探索未来的人机交互方式。该项目利用 Gemini 2.0 强大的多模态理解和推理能力,通过浏览器自...
5ヶ月前
01.1K0