BrowseComp : OpenAI lance un nouveau benchmark pour évaluer les capacités de recherche d'information des réseaux d'IA

Nouvelles de l'IAPosté il y a 3 mois Sharenet.ai
563 0
吐司AI

Récemment, OpenAI a lancé un projet intitulé BrowseComp un nouveau test de référence conçu pour évaluer la capacité des agents d'intelligence artificielle à naviguer sur l'internet. Ce test consiste en 1 266 questions couvrant un large éventail de domaines, de la découverte scientifique à la culture pop, et exige de l'agent qu'il navigue en permanence dans un environnement web ouvert à la recherche de réponses difficiles à trouver et entremêlées d'informations.

BrowseComp:OpenAI 推出评估AI网络信息检索能力的新基准
Figure 1 : Performances de BrowseComp d'une version antérieure d'OpenAI Deep Research sous différents efforts de navigation. La précision s'améliore progressivement au fur et à mesure que la quantité de calcul au moment du test augmente.

 

Les repères existants sont "saturés" et BrowseComp a été développé à cette fin.

Actuellement, certains critères de référence populaires, tels que SimpleQA, se concentrent sur la capacité d'un modèle à récupérer des faits isolés et simples. Pour les modèles avancés comme GPT-4o, qui est équipé d'outils de navigation, ces tâches sont devenues trop simples et approchent de la saturation des performances. Cela signifie que les critères de référence tels que SimpleQA ne sont plus efficaces pour distinguer les véritables capacités des modèles lorsqu'il s'agit d'informations plus complexes dont la recherche nécessite une exploration approfondie du réseau.

C'est pour combler cette lacune que l'OpenAI a développé BrowseComp (qui signifie "Compétition de navigation"). Le benchmark consiste en 1 266 questions difficiles et est conçu pour évaluer la capacité des agents d'IA à localiser des questions difficiles à trouver, avec des points d'information entremêlés, et qui peuvent nécessiter des visites à des douzaines, voire des centaines de sites web pour y répondre. L'équipe a publié le test sur le site web de l'OpenAI simple evals GitHub repositoryet fournit des informations détaillées sur lesDocuments de recherche.

 

Concept de conception de BrowseComp

BrowseComp a été conçu à l'origine pour combler une lacune dans les tests de référence existants. Bien qu'il y ait eu un certain nombre de tests de référence pour évaluer les capacités de recherche d'informations dans le passé, la plupart d'entre eux étaient basés sur des questions relativement simples qui peuvent être facilement résolues par les modèles de langage existants, et BrowseComp se concentre sur des questions complexes qui nécessitent des recherches approfondies et un raisonnement créatif afin de trouver les réponses.

Voici quelques exemples de numéros de BrowseComp :

  • Exemple de question 1: Entre 1990 et 1994, quelles équipes de football ont disputé des matches avec des arbitres brésiliens au cours desquels quatre cartons jaunes (deux pour chaque équipe) ont été distribués, dont trois en seconde période, et quatre remplacements ont été effectués au cours du match, dont un pour cause de blessure au cours des 25 premières minutes du match ?
    • réponse de référenceIrlande vs Roumanie
  • Exemples de questions 2: : Veuillez identifier un personnage de fiction qui brise parfois le quatrième mur pour interagir avec le public, qui est connu pour son humour et dont le programme télévisé a été diffusé entre les années 1960 et 1980 et a compté moins de 50 épisodes.
    • réponse de référenceL'homme en plastique : Plastic Man
  • Exemples de questions 3Article scientifique : Veuillez indiquer le titre d'un article scientifique présenté lors d'une conférence EMNLP entre 2018 et 2023 dans lequel le premier auteur était titulaire d'un diplôme de premier cycle de Dartmouth College et le quatrième auteur était titulaire d'un diplôme de premier cycle de l'Université de Pennsylvanie.
    • réponse de référence: : Principes fondamentaux de la panification : la science du pain

 

Caractéristiques uniques de BrowseComp

  1. stimulantLes problèmes de BrowseComp sont soigneusement conçus pour s'assurer que les modèles existants ne peuvent pas être résolus en peu de temps. Les formateurs humains effectuent plusieurs séries de validation lors de la création des problèmes afin de s'assurer qu'ils sont difficiles. Voici quelques-uns des critères utilisés pour évaluer la difficulté des problèmes :
    • Non résolu par les modèles existantsLes formateurs ont été invités à vérifier que le GPT-4o (avec et sans navigation), l'OpenAI o1 et les versions antérieures du modèle de recherche approfondie n'abordaient pas ces questions.
    • Non disponible dans les résultats de rechercheLes formateurs ont été invités à effectuer cinq recherches simples sur Google et à vérifier que les réponses ne figuraient pas dans les premières pages des résultats de la recherche.
    • Les humains ne peuvent pas résoudre le problème en dix minutes.Les formateurs ont été invités à créer des problèmes suffisamment difficiles pour qu'une autre personne ne puisse pas les résoudre en dix minutes. Pour certains problèmes, un deuxième formateur tente de trouver la réponse. Les formateurs qui ont créé des problèmes qui ont été résolus en plus de 40% ont été invités à réviser leurs problèmes.

    BrowseComp:OpenAI 推出评估AI网络信息检索能力的新基准
    Figure 2 : Distribution des sujets dans BrowseComp. La distribution des sujets dans BrowseComp est améliorée par les conseils de l'outil ChatGPT Le modèle a catégorisé les thèmes de chaque question ex post.

  2. Facile à vérifierLes réponses : malgré la difficulté des questions, les réponses sont généralement courtes et claires, facilement vérifiables par des réponses de référence. Cette conception rend l'évaluation comparative difficile sans être injuste.
  3. panachageLes questions de BrowseComp couvrent un large éventail de domaines, notamment la télévision et le cinéma, la science et la technologie, l'art, l'histoire, le sport, la musique, les jeux vidéo, la géographie et la politique. Cette diversité garantit l'exhaustivité des tests.

 

Évaluation des performances du modèle

Les tests effectués sur BrowseComp ont montré que les performances des modèles existants sont mitigées :

  • GPT-4o répondre en chantant GPT-4.5 Sans la fonction de navigation, la précision est proche de zéro. Même si la fonction de navigation est activée, la précision du GPT-4o ne s'améliore que de 0,6% à 1,9%, ce qui indique que la fonction de navigation seule n'est pas suffisante pour résoudre des problèmes complexes.
  • OpenAI o1 Le modèle n'a pas de fonction de navigation mais atteint une précision de 9,91 TP3T grâce à sa forte capacité de raisonnement, ce qui suggère que certaines réponses peuvent être obtenues par le raisonnement de la connaissance interne.
  • Recherche approfondie de l'OpenAI Le modèle a été le plus performant, avec une précision de 51,51 TP3T. Le modèle recherche de manière autonome dans le réseau, en évaluant et en synthétisant les informations provenant de sources multiples, et en adaptant sa stratégie de recherche pour lui permettre de s'attaquer à des problèmes qui, autrement, ne pourraient pas être résolus.

 

analyse approfondie

1. les erreurs d'étalonnage

Bien que le modèle de Deep Research donne de bons résultats en termes de précision, il présente une erreur d'étalonnage élevée. Cela signifie que le modèle ne dispose pas d'une évaluation précise de sa propre incertitude lorsqu'il donne en toute confiance des réponses incorrectes. Ce phénomène est particulièrement évident dans les modèles dotés de capacités de navigation, ce qui suggère que l'accès aux outils web peut accroître la confiance du modèle dans les réponses incorrectes.

BrowseComp:OpenAI 推出评估AI网络信息检索能力的新基准
Figure 3 : Histogramme montrant le temps nécessaire à un humain pour résoudre un problème de BrowseComp ou pour abandonner. Les formateurs n'étaient autorisés à abandonner qu'après avoir tenté de résoudre le problème pendant au moins deux heures.

2. l'impact des ressources informatiques

Les résultats du test montrent que les performances du modèle s'améliorent progressivement au fur et à mesure que les ressources informatiques sont augmentées pendant le test. Cela suggère que les problèmes de BrowseComp nécessitent un effort important de recherche et de raisonnement, et que des ressources informatiques plus importantes peuvent améliorer de manière significative les performances du modèle.

BrowseComp:OpenAI 推出评估AI网络信息检索能力的新基准
Figure 4 : Performances de BrowseComp pour Deep Research lors de l'utilisation de l'échantillonnage parallèle et du vote basé sur la confiance. L'effort de calcul supplémentaire améliore encore les performances du modèle avec Best-of-N.

3. les stratégies d'agrégation

Les performances du modèle peuvent encore être améliorées par de multiples tentatives et en utilisant différentes stratégies d'agrégation (par exemple, le vote majoritaire, le vote pondéré et le meilleur choix) 15% à 25%. où la stratégie du meilleur choix est la plus performante, ce qui indique que le modèle de Deep Research a un niveau élevé de précision dans l'identification de la bonne réponse.

 

rendre un verdict

Le lancement de BrowseComp apporte une nouvelle dimension à l'évaluation des agents d'intelligence artificielle. Il permet non seulement de tester la capacité de recherche d'informations d'un modèle, mais aussi d'examiner sa persévérance et sa créativité face à des problèmes complexes. Bien que les performances des modèles existants sur BrowseComp doivent encore être améliorées, la publication de ce test de référence fera sans aucun doute progresser la recherche dans le domaine de l'IA.

À l'avenir, avec l'engagement d'un plus grand nombre de modèles et les progrès technologiques, nous pouvons nous attendre à ce que les performances des agents d'IA sur BrowseComp continuent de s'améliorer, ce qui conduira à terme à des agents d'IA plus fiables et plus dignes de confiance.

© déclaration de droits d'auteur
AiPPT

Articles connexes

Pas de commentaires

aucun
Pas de commentaires...