Quelle est la précision de la reconnaissance d'images de ChatGPT ?

Réponses AIMise à jour il y a 5 mois Sharenet.ai

911 0

ChatGPT Les capacités de reconnaissance d'images d'OpenAI, grâce aux modèles gpt-4o, gpt-4o-mini et gpt-4-turbo, sont performantes dans de nombreux scénarios, mais la précision n'est pas absolue. Voici les points clés qui influencent ses performances :

✨ Domaines d'expertise :

Identification généralisée : ChatGPT est le plus à même de répondre aux questions sur le "quoi" d'une image, comme la reconnaissance d'objets, de scènes et de relations sous-jacentes. Plus précisément, il s'agit de la reconnaissance d'objets, de scènes et de relations sous-jacentes.Détection visuelle des ciblesChatGPT n'est pas très bon dans ce domaine.

⚠️ Limites et facteurs d'influence :

La qualité de l'image est fondamentale :
- La clarté, l'éclairage et l'occlusion ont une incidence directe sur la reconnaissance. Le flou, un éclairage trop sombre ou trop clair et l'occultation d'objets clés réduisent la précision de la reconnaissance.
La complexité de l'image est le défi à relever :
- Un grand nombre d'objets et un arrière-plan complexe peuvent rendre l'identification plus difficile.
Niveau de détail (paramètre de détail) Contrôlable : (interface API optionnelle)
- LOW : Rapide, basse résolution (512x512px), consomme 85 jetons, convient aux scènes qui ne nécessitent pas de détails importants.
- Élevé : plus précis, mais plus lent et consommant plus de jetons (170 par région de 512x512). jetons (+85 jetons). Idéal pour les scènes nécessitant un niveau de détail élevé.
- auto : le modèle est automatiquement sélectionné.
Il convient de faire preuve de prudence en fonction des scénarios :
- Orientation spatiale : N'est pas doué pour l'orientation spatiale précise.
- Images médicales : inapplicableIn Interprétation des images médicales.
- Alphabet non latin : La reconnaissance peut être médiocre. (par exemple, chinois, japonais, coréen)
- Petit texte/rotation/styles spéciaux : Il faut zoomer, éviter les rotations et faire attention au style des lignes.
- Panorama/Fisheye : Difficile de traiter avec eux.
- Compter : Les résultats ne peuvent être qu'approximatifs.
- Le Captcha et les métadonnées des images ne sont pas pris en charge.
Taille et coût de l'image (API)
- Limiter la taille du téléchargement :20MB.
- Attentes en matière de taille d'image pour différents niveaux de détail :
  * Basse résolution : 512px X 512px
  * Haute résolution : moins de 768px sur le petit côté et moins de 2000px sur le grand côté.
- Calcul des coûts :
  - Basse résolution : 85 jetons pour une image de n'importe quelle taille.
  - Haute résolution : le coût sera adapté à la taille de l'image, 170 jetons par carré de 512 px, plus 85 jetons. Par exemple, pour une image de 1024x1024, le coût est de 765 jetons ; pour une image de 2048x4096, le coût est de 1105 jetons.

💡 Résumé :

La reconnaissance d'images de ChatGPT est précise dans de nombreux cas, mais elle est affectée par un certain nombre de facteurs. Pour obtenir les meilleurs résultats, il convient de fournir des images claires et de haute qualité, de sélectionner le niveau de détail approprié et de tenir compte des limites énumérées ci-dessus. Des outils plus spécialisés peuvent être nécessaires pour des besoins de haute précision ou des types d'images particuliers.