
Il y a un problème avec les principaux outils d'IA, comme ChatGPT , Gemini et Claude : nous ne savons pas vraiment à quel point ils sont intelligents.
En effet, contrairement aux entreprises qui fabriquent des voitures, des médicaments ou des préparations pour nourrissons, les entreprises d’intelligence artificielle ne sont pas tenues de soumettre leurs produits à des tests avant de les rendre publics. Il n’existe pas de label de qualité pour les chatbots IA, et peu de groupes indépendants soumettent ces outils à des tests rigoureux.
Au lieu de cela, nous devons nous fier aux affirmations des sociétés d'IA, qui utilisent souvent des expressions vagues et déroutantes comme « capacités améliorées » pour décrire comment leurs modèles diffèrent d'une version à l'autre. Et, bien qu’il existe des tests standards pour évaluer la capacité des modèles d’intelligence artificielle, par exemple en raisonnement mathématique ou logique, de nombreux experts doutent de la fiabilité réelle de ces tests.
Cela peut ressembler à une plainte insignifiante. Cependant, je suis convaincu que le manque de mesures et d’évaluations adéquates des systèmes d’intelligence artificielle constitue un problème majeur.
Pour commencer, sans informations fiables sur les produits d’IA, comment les gens sont-ils censés savoir quoi en faire ?
Je ne peux pas compter le nombre de fois au cours de la dernière année où un ami ou un collègue m'a demandé quel outil d'IA il devait utiliser pour une tâche donnée. Lequel écrit le mieux le code Python, ChatGPT ou Gemini ? DALL-E 3 ou Midjourney sont-ils meilleurs pour générer des images réalistes de personnes ?
En général, je hausse simplement les épaules en réponse. Même en tant que personne qui écrit sur l'IA pour gagner sa vie et essaie constamment de nouveaux outils, je suis en colère contre la difficulté de suivre les forces et les faiblesses relatives des différents produits d'IA . La plupart des entreprises technologiques ne publient pas de manuels d’utilisation ni de communications détaillées sur leurs produits d’IA. De plus, les modèles sont mis à jour si fréquemment qu’un chatbot qui a du mal à accomplir une tâche un jour peut mystérieusement y exceller le lendemain.
De mauvaises mesures créent également un risque pour la sécurité. Sans de meilleurs tests pour les modèles d'IA, il est difficile de savoir quelles capacités s'améliorent plus rapidement que prévu ou quels produits pourraient présenter de réelles menaces de danger.
Dans l'AI Index de cette année, un important rapport annuel produit par l' Institut pour l'intelligence artificielle centrée sur l'humain de l'Université de Stanford , les auteurs décrivent les mauvaises mesures comme l'un des principaux défis auxquels sont confrontés les chercheurs en intelligence artificielle.
"L'absence d'évaluation standardisée rend extrêmement difficile la comparaison systématique des limites et des risques des différents modèles d'IA", m'a expliqué Nestor Maslej , rédacteur en chef du rapport.
L’un des tests actuels les plus couramment passés par les modèles d’IA – presque l’équivalent de l’examen d’entrée à l’université pour les chatbots – est un test connu sous le nom de Massive Multitask Language Understanding (MMLU).

Le MMLU, lancé en 2020, consiste en une collection de quelque 16 000 questions à choix multiples couvrant des dizaines de sujets académiques, allant de l'algèbre abstraite au droit et à la médecine. C'est censé être une sorte de test d'intelligence générale : plus un chatbot répond correctement à ces questions, plus il est intelligent.
Il est devenu la référence pour les entreprises d’IA en quête de domination. (Plus tôt cette année, lorsque Google a lancé son modèle d'IA le plus avancé, Gemini Ultra, la société s'est vantée d'avoir obtenu un score de 90 % au MMLU, le score le plus élevé jamais enregistré.)
Dan Hendrycks , un chercheur en sécurité de l'IA qui a contribué au développement de MMLU alors qu'il était étudiant diplômé à l'Université de Californie à Berkeley, m'a dit que le test n'avait jamais été destiné à être utilisé pour se vanter . Il était alarmé par la rapidité avec laquelle les systèmes d’IA s’amélioraient et souhaitait encourager les chercheurs à prendre cela plus au sérieux.
Hendrycks a noté que, même s'il pensait que le MMLU « pourrait avoir une ou deux années de vie utile supplémentaires », il devra bientôt être remplacé par des tests différents, plus difficiles. Les systèmes d’IA deviennent trop intelligents pour les tests dont nous disposons actuellement, et il devient de plus en plus difficile d’en concevoir de nouveaux.
( Le New York Times a poursuivi OpenAI, le créateur de ChatGPT, et son partenaire Microsoft, pour violation du droit d'auteur liée aux systèmes d'intelligence artificielle qui génèrent du texte.)
Il peut également y avoir des problèmes avec les tests eux-mêmes . Plusieurs chercheurs avec qui j'ai parlé ont averti que le processus d'administration de tests de référence tels que le MMLU varie quelque peu d'une entreprise à l'autre et que les scores des différents modèles peuvent ne pas être directement comparables.
Il existe un problème connu sous le nom de « pollution des données » , lorsque des questions et réponses issues de tests de référence sont incluses dans les données d'entraînement d'un modèle d'IA, lui permettant essentiellement de tricher. De plus, ces modèles ne sont ni testés ni audités de manière indépendante , ce qui signifie que les sociétés d'IA évaluent essentiellement leur propre travail.
En bref, la mesure de l’IA est un véritable désastre : un enchevêtrement de tests bâclés, de comparaisons de pommes avec d’oranges et de publicités intéressées qui ont laissé les utilisateurs, les régulateurs et les développeurs d’IA eux-mêmes dans le noir.
La solution à ce problème passera probablement par une combinaison d’ initiatives publiques et privées.
Les gouvernements peuvent et doivent concevoir des programmes de tests robustes mesurant à la fois les capacités brutes et les risques de sécurité des modèles d’IA, et ils devraient financer des subventions et des projets de recherche visant à concevoir de nouvelles évaluations de haute qualité. (Dans son décret sur l'intelligence artificielle de l'année dernière, la Maison Blanche a ordonné à plusieurs agences fédérales, dont l'Institut national des normes et de la technologie, de créer et de superviser de nouveaux mécanismes d'évaluation des systèmes d'intelligence artificielle.)
Certains progrès apparaissent également dans le domaine académique . L'année dernière, des chercheurs de Stanford ont introduit un nouveau test pour les modèles d'IA générateurs d'images qui utilise des évaluateurs humains plutôt que des tests automatisés pour déterminer la capacité d'un modèle. Et un groupe de chercheurs de l'Université de Californie à Berkeley vient de lancer Chatbot Arena , un classement populaire qui oppose des modèles d'IA anonymes et aléatoires et demande aux utilisateurs de voter pour le meilleur modèle.
Les entreprises d’IA peuvent également aider en s’engageant à travailler avec des évaluateurs et des auditeurs tiers pour tester leurs modèles, en rendant les nouveaux modèles plus accessibles aux chercheurs et en étant plus transparentes lors de la mise à jour de leurs modèles. Et, dans les médias , j’espère qu’à terme une sorte de publication de type Wirecutter verra le jour, chargée d’examiner les nouveaux produits d’intelligence artificielle de manière rigoureuse et fiable.
L’année dernière, des chercheurs de la société d’IA Anthropic ont écrit sur un blog que « une gouvernance efficace de l’IA dépend de notre capacité à évaluer de manière significative les systèmes d’IA ».
Je suis d'accord. L’intelligence artificielle est une technologie trop importante pour être évaluée en fonction de l’ambiance qu’elle vous donne. Tant que nous n’aurons pas de meilleurs mécanismes pour mesurer ces outils, nous ne saurons pas comment les utiliser ni si leurs progrès doivent être célébrés ou craints.
vers 2024 The New York Times Company