DroidRun : un outil open source d'IA pour automatiser les téléphones Android

Derniers outils d'IAPosté il y a 3 mois Sharenet.ai
573 0
吐司AI

Introduction générale

DroidRun est un outil open source qui permet à l'IA d'utiliser les téléphones Android comme des humains. Il aide l'IA à automatiser des tâches telles que l'ouverture d'applications, l'envoi de messages ou la navigation sur le web en extrayant des éléments interactifs tels que les boutons à l'écran et les champs de saisie. DroidRun combine l'analyse visuelle et l'analyse de la structure de l'interface utilisateur pour un fonctionnement précis et stable. Il permet aux utilisateurs de connecter leurs propres modèles de langage et est compatible avec une large gamme de systèmes Android. Que vous soyez un développeur créant un assistant d'intelligence artificielle ou un utilisateur occasionnel simplifiant le fonctionnement de votre téléphone, DroidRun est rapide à démarrer et prêt à être utilisé dès sa sortie de l'emballage.

DroidRun:AI自动操作安卓手机的开源工具

 

Liste des fonctions

  • En extrayant les éléments d'interaction avec l'écran, l'IA peut reconnaître les boutons, les zones de texte, etc.
  • Prise en charge de l'auto-tap, du swipe et de la saisie par l'IA pour simuler une opération humaine.
  • Combinez l'analyse visuelle et l'extraction de l'interface utilisateur pour vous adapter à des interfaces complexes.
  • Gestion intelligente des erreurs et reprise automatique après l'interruption d'une tâche.
  • Permet de se connecter à des modèles linguistiques sélectionnés par l'utilisateur avec une grande flexibilité.
  • Enregistrer les actions de l'utilisateur pour faciliter l'exécution répétée de la même tâche.
  • Compatible avec Android 6.0 et plus, couvrant une large gamme d'appareils.
  • Fournit un cadre de travail open source avec des fonctionnalités personnalisables pour les développeurs (bientôt disponible).

 

Utiliser l'aide

Processus d'installation

  1. Visiter le site officiel: Ouvrez votre navigateur et tapez https://www.droidrun.ai/.
  2. Télécharger les applicationsSur la page d'accueil du site officiel, cliquez sur "Download Android Portal APK" pour télécharger. droidrun-portal.apk Le fichier a une taille d'environ 10 Mo.
  3. Activation des autorisationsPour cela, il faut activer la fonction "Autoriser l'installation d'applications provenant de sources inconnues" dans "Réglages > Sécurité" sur votre téléphone Android. Le chemin d'accès peut être légèrement différent selon les téléphones portables.
  4. Installer l'APKOuvrez le gestionnaire de fichiers, trouvez le fichier APK téléchargé et cliquez sur Installer. Le processus d'installation dure environ 1 minute.
  5. Délégation d'autoritéLorsque vous ouvrez DroidRun pour la première fois, vous serez invité à activer les "Services d'accessibilité" et la "Capture d'écran". Cliquez sur l'invite pour accéder à la page des paramètres et activer les autorisations correspondantes.
  6. modèle de connectivitéDans l'application, entrez la clé API de votre modèle linguistique (Gemini, ChatGPT, Grok, etc. sont pris en charge). Cliquez sur "Verify" pour confirmer la réussite de la connexion.

Comment l'utiliser

À la base, DroidRun permet à l'IA de commander le téléphone à la place de l'utilisateur. Pour ce faire, il analyse le contenu de l'écran et exécute des tâches automatiquement. Vous trouverez ci-dessous un guide détaillé, étape par étape, des principales fonctionnalités :

Fonction 1 : Exécution automatique des tâches liées au téléphone portable

  • Création de tâchesPour cela, ouvrez DroidRun et cliquez sur "Nouvelle tâche". Décrivez la tâche dans le champ de saisie, par exemple "Ouvrez le calendrier et ajoutez une réunion pour demain à 10 heures". Plus la description est précise, plus l'exécution de l'IA sera exacte.
  • Sélectionner le modèleModèles de langue : Allez dans Réglages > Modèles de langue et sélectionnez le modèle connecté. Modèles rapides (par ex. Gémeaux Flash) pour les tâches simples et des modèles complexes (par exemple GPT-4) pour les opérations en plusieurs étapes.
  • Exécution des tâchesDroidRun capture l'écran en temps réel et identifie les éléments de l'interface. Une surbrillance bleue apparaît sur l'écran pour indiquer la zone où l'IA est en train d'opérer. Par exemple, appuyez sur l'icône Calendrier ou saisissez le titre d'une réunion.
  • Résultats de l'inspectionLorsque la tâche est terminée, cliquez sur "Journal" pour afficher les détails de l'exécution. Le journal enregistrera chaque action, telle que "Cliquez avec succès sur l'icône du calendrier" ou "Échec de la saisie du texte". En cas d'échec, vous pouvez modifier la description et réessayer.

Fonctionnalité 2 : Analyse de l'intégration visuelle et de l'interface utilisateur

  • Fonctions d'habilitationDans Paramètres > Mode d'analyse, sélectionnez Visuel + Extraction d'interface utilisateur. Cela permet à DroidRun d'analyser à la fois les captures d'écran et les données de l'interface utilisateur du système.
  • Interfaces complexes sur le plan opérationnelPrenons l'exemple d'une application de shopping : tapez "Ouvrir Jingdong, rechercher des écouteurs Bluetooth", et l'IA trouvera automatiquement le champ de recherche, saisira le texte et cliquera sur le bouton de recherche. Même si l'interface contient des publicités, l'IA peut reconnaître les éléments ciblés.
  • Reconnaissance optimiséeSi l'IA rate son coup, allez dans Paramètres > Sensibilité de la reconnaissance et ajustez le curseur. Les valeurs élevées favorisent l'analyse visuelle, les valeurs faibles donnent la priorité aux données de l'interface utilisateur. La valeur par défaut recommandée est 50.
  • Enregistrer le modèlePour les tâches fréquemment utilisées, cliquez sur "Enregistrer la tâche". La prochaine fois, il suffira de sélectionner le modèle et l'IA l'exécutera directement sans avoir à répéter la saisie.

Fonction 3 : Gestion intelligente des erreurs

  • récupération spontanéeSi vous rencontrez une fenêtre pop-up (par exemple une publicité) pendant une tâche, DroidRun essaiera de la fermer et de continuer. Par exemple, lors de l'exécution de "Ouvrir le navigateur", AI cliquera automatiquement sur "Autoriser" s'il y a une demande d'autorisation.
  • intervention manuelleSi la tâche est bloquée, cliquez sur "Pause". Après avoir réglé manuellement le téléphone sur le bon écran, cliquez sur "Reprendre". L'IA reprendra à partir de l'état actuel.
  • journal des erreursAprès chaque échec, vérifiez le "log" pour en connaître la raison, par exemple "Search box not found" (boîte de recherche introuvable). Optimisez la description de la tâche ou les paramètres de l'interface si cela vous est demandé.

Fonction 4 : Relier des modèles linguistiques personnalisés

  • Ajout de modèlesDans "Paramètres > Modèles de langue", entrez la clé API ; DroidRun prend en charge plusieurs modèles, il n'est donc pas nécessaire de procéder à une configuration complexe, il suffit de coller la clé.
  • connexion de testCliquez sur "Test" pour vous assurer que le modèle répond correctement. Une fois le test réussi, le modèle apparaîtra dans la liste de sélection des tâches.
  • Modèles de commutationLes modèles peuvent être utilisés pour des tâches différentes. Par exemple, l'utilisation de Grok Traiter les tâches simples et utiliser le GPT-4 pour la logique complexe.

Fonctionnalités à venir

Selon le site officiel, les fonctionnalités suivantes sont en cours de développement et devraient être mises en place prochainement :

  • Suivi des élémentsL'IA peut enregistrer les éléments sur lesquels l'utilisateur a cliqué et répéter l'action à l'identique. Idéal pour les tâches par lots telles que les likes ou les commentaires en masse.
  • gestion des bonsL'IA est capable de prendre en charge l'ajout de mots de passe de comptes ou la double authentification (2FA). Par exemple, l'IA peut se connecter automatiquement à des applications sociales et saisir des codes de vérification dynamiques.
  • Gestion multi-systèmesLa solution de contrôle simultané de plusieurs appareils Android est adaptée aux scénarios d'automatisation ou de test au niveau de l'entreprise.

mise en garde

  • Compatibilité des systèmesDroidRun est compatible avec Android 6.0 et les versions ultérieures. Certaines nouvelles fonctionnalités (telles que le suivi des éléments) peuvent nécessiter Android 10 ou plus.
  • exigences en matière de réseauMode hors ligne : Un réseau Wi-Fi ou 4G stable est nécessaire pour se connecter au modèle linguistique. Le mode hors ligne ne prend en charge que les tâches locales enregistrées.
  • Maintien des autorisationsSur certains téléphones portables (par exemple Huawei), les fonctions d'accessibilité peuvent être désactivées en mode d'économie d'énergie. Vérifiez régulièrement si l'option "Paramètres > Accessibilité" est activée.
  • la consommation d'énergieLa consommation d'énergie est plus élevée lorsque l'on exécute des tâches pendant de longues périodes. Il est recommandé que le niveau de la batterie soit supérieur à 30% ou que le chargeur soit connecté.

Soutien aux développeurs

DroidRun sera bientôt disponible en tant que framework open source (licence MIT), avec le code complet disponible pour les développeurs via GitHub. La documentation officielle (Docs) et les services en nuage (Cloud) est également en préparation, avec des interfaces API et des guides de déploiement disponibles à ce moment-là. Les développeurs peuvent personnaliser le comportement de l'IA, par exemple en intégrant des applications spécifiques ou en développant des assistants propriétaires.

En suivant ces étapes, les utilisateurs peuvent rapidement se familiariser avec DroidRun, qui offre un support d'automatisation flexible pour les tâches de routine et les développements complexes.

 

scénario d'application

  1. Simplifier les opérations quotidiennes
    Les utilisateurs peuvent automatiser les tâches répétitives avec DroidRun. Par exemple, ouvrir automatiquement l'application d'actualités tous les jours pour parcourir les titres ou envoyer régulièrement des messages dans les groupes sociaux. L'IA identifiera avec précision l'interface et réduira le nombre d'appuis manuels.
  2. Gestion des médias sociaux
    Les praticiens de l'automédia peuvent opérer par lots. Par exemple, ils peuvent se connecter automatiquement à Xiaohongshu, télécharger 10 images et publier des notes. L'IA les exécute dans l'ordre pour s'assurer que le contenu est publié sans erreur.
  3. Développement de tests d'application
    Les développeurs peuvent utiliser DroidRun pour tester les interfaces des applications. Par exemple, il est possible de simuler la recherche et la commande d'un utilisateur dans une application de commerce électronique, d'enregistrer le temps de réponse de chaque étape et de découvrir les bogues potentiels.
  4. Extraction et analyse des données
    Le chercheur peut capturer automatiquement les données de l'application. Par exemple, ouvrir l'application Maps, rechercher un restaurant à proximité et faire une capture d'écran des résultats. L'IA enregistre les données pour une analyse ultérieure.
  5. Programmation de tâches complexes
    Les utilisateurs professionnels peuvent concevoir des processus en plusieurs étapes. Par exemple, l'IA ouvre l'application de messagerie, télécharge la pièce jointe, la transfère sur un disque en nuage, puis envoie un message de confirmation, ce qui convient à la collaboration entre applications.

 

QA

  1. Quels sont les appareils Android pris en charge par DroidRun ?
    Il est compatible avec Android 6.0 et plus, ce qui couvre la plupart des téléphones mobiles et des tablettes. Android 10 ou supérieur est recommandé pour une meilleure expérience.
  2. Ai-je besoin de privilèges root ?
    Non. DroidRun utilise un service d'assistance, pas besoin d'être rooté, il suffit de l'installer et de l'utiliser.
  3. Est-il possible d'exécuter des tâches hors ligne ?
    Les tâches enregistrées localement peuvent être exécutées hors ligne, mais la connexion au modèle linguistique nécessite une connexion internet. Il est recommandé d'enregistrer à l'avance les tâches fréquemment utilisées.
  4. Comment choisir le bon modèle linguistique ?
    Choisissez un modèle rapide (par exemple Gemini Flash) pour les tâches simples et un modèle avancé (par exemple GPT-4) pour les tâches complexes. Le site officiel mettra à jour la liste des modèles recommandés.
  5. Comment l'échec d'une mission est-il géré ?
    Vérifiez le journal pour confirmer la raison de l'échec, par exemple "Bouton introuvable". Ajustez la description ou la sensibilité et réessayez, ou intervenez manuellement et continuez.
  6. Quand la version open source sera-t-elle disponible ?
    Selon le site officiel, le dépôt GitHub sera bientôt mis en ligne, la date exacte sera annoncée ultérieurement. Rejoignez la communauté Discord pour obtenir les dernières mises à jour.
© déclaration de droits d'auteur
AiPPT

Postes connexes

Pas de commentaires

aucun
Pas de commentaires...