
En novembre 2022, la société derrière Facebook a lancé un chatbot appelé Galactica . Après un torrent de plaintes selon lesquelles le robot inventait des événements historiques et débitait d'autres absurdités, Meta l'a supprimé d'Internet.
Deux semaines plus tard, la startup OpenAI de San Francisco a lancé un chatbot appelé ChatGPT . Ce fut une sensation mondiale.
Les deux robots étaient basés sur la même technologie. Cependant, contrairement à Meta , OpenAI avait perfectionné son bot en utilisant une technique qui commençait tout juste à changer la façon dont l'intelligence artificielle est construite.
Dans les mois qui ont précédé le lancement de ChatGPT , la société a embauché des centaines de personnes pour utiliser une première version et fournir des suggestions précises susceptibles d'aider à perfectionner les compétences du robot. Telle une armée de tuteurs guidant un élève du primaire, ils ont montré au robot comment répondre à des questions particulières, noté ses réponses et corrigé ses erreurs. Après avoir analysé ces suggestions, ChatGPT a appris à devenir un meilleur chatbot .
La technique, « l’apprentissage par renforcement à partir des commentaires humains », est à l’origine du développement de l’intelligence artificielle dans l’ensemble de l’industrie. Plus que toute autre avancée, elle a transformé les chatbots d’une simple curiosité en une technologie largement utilisée.
Ces chatbots s’appuient sur une nouvelle vague de systèmes d’intelligence artificielle capables d’acquérir des compétences en analysant des données. Il existe aux États-Unis et dans d’autres régions du monde d’énormes équipes de travailleurs à bas salaires qui organisent, affinent et, dans certains cas, créent une grande partie de ces données.
Depuis des années, des entreprises comme Google et OpenAI s’appuient sur ce type de travailleurs pour préparer les données utilisées pour entraîner les technologies d’intelligence artificielle. Des travailleurs dans des pays comme l’Inde et l’Afrique ont contribué à tout identifier, depuis les panneaux d’arrêt sur les photographies utilisées pour entraîner les véhicules autonomes jusqu’aux symptômes du cancer du côlon dans les vidéos utilisées pour créer des technologies médicales.
Pour créer des chatbots, les entreprises se tournent vers des travailleurs similaires, même s’ils sont souvent mieux formés. L’apprentissage par renforcement à partir de la rétroaction humaine est beaucoup plus sophistiqué que le travail de mémorisation d’étiquetage des données qui a alimenté le développement de l’intelligence artificielle dans le passé. Dans ce cas, les travailleurs jouent le rôle de tuteurs, donnant à la machine des informations plus approfondies et plus spécifiques dans le but d’améliorer ses réponses.
L'année dernière, OpenAI et l'un de ses concurrents, Anthropic , ont fait appel à des pigistes aux États-Unis via le site Web Upwork . Hugging Face , un autre laboratoire prestigieux, fait appel à des travailleurs américains embauchés via les startups de curation de données Scale AI et Surge .
Ces travailleurs sont répartis à parts égales entre hommes et femmes, et certains ne s'identifient pas comme l'un ou l'autre, a déclaré Nazneen Rajani , chercheuse à Hugging Face . Ils ont entre 19 et 62 ans et leurs qualifications vont du diplôme technique au doctorat.
Les travailleurs basés aux États-Unis gagnent entre 15 et 30 dollars de l'heure. Les travailleurs des autres pays gagnent considérablement moins. Lorsque Hugging Face a demandé des travailleurs à une division d' Amazon , l'entreprise a expliqué que les travailleurs basés aux États-Unis coûteraient cinq fois plus cher que ceux basés à l'étranger.
Ce travail nécessite des heures d’écriture, d’édition et de notation méticuleuses. Les travailleurs peuvent rédiger une seule question et sa réponse pendant 20 minutes. Le feedback humain permet aux chatbots d'aujourd'hui d'aborder une conversation à tour de rôle, plutôt que de simplement proposer une réponse unique. Cela aide également des entreprises comme OpenAI à réduire la désinformation, les préjugés et autres informations toxiques produites par ces systèmes.
Cependant, les chercheurs préviennent que la technique n’a pas été entièrement comprise. Ils expliquent que même si cela améliore le comportement de ces robots dans certains domaines, cela peut dégrader les performances dans d’autres.
Une étude récente menée par des chercheurs de l'Université de Stanford et de l'Université de Californie à Berkeley montre que la précision de la technologie OpenAI a diminué dans certaines situations au cours des derniers mois, par exemple lors de la résolution de problèmes mathématiques, de la génération de code informatique et de la tentative de raisonnement. Cela pourrait être le résultat d’efforts continus pour appliquer le feedback humain.
Les chercheurs ne comprennent toujours pas pourquoi, mais ils ont découvert qu’affiner le système dans un domaine peut le rendre moins précis dans un autre.
" Un réglage fin du système peut introduire des biais supplémentaires (des effets secondaires) qui le font pencher dans des directions inattendues ", a déclaré James Zou , professeur d' informatique à Stanford .
En 2016, une équipe de chercheurs d’OpenAI a créé un système d’IA qui a appris à jouer à un vieux jeu vidéo de course de bateaux, « Coast Runners ». Cependant, dans le but de capturer les petits gadgets verts qui bordent la piste de course – un moyen de marquer des points – le système d'IA a fait tourner à plusieurs reprises son bateau dans des cercles sans fin, s'écraser contre les murs et prendre feu. Il lui était difficile de franchir la ligne d'arrivée, ce qui était aussi important que de marquer des points.
C’est l’énigme au cœur du développement de l’intelligence artificielle : à mesure que les machines apprennent à effectuer des tâches d’analyse de données pendant des heures, elles peuvent également adopter des comportements inattendus, indésirables et peut-être même nuisibles.
Cependant, les chercheurs d’OpenAI ont créé un mécanisme pour lutter contre ce problème. Ils ont développé des algorithmes capables à la fois d’apprendre des tâches en analysant des données et de recevoir des conseils réguliers d’enseignants humains. En quelques clics de souris, les travailleurs pouvaient montrer au système d’intelligence artificielle qu’il devait avancer vers l’objectif, et non seulement accumuler des points.
À peu près à la même époque, OpenAI , Google et d'autres sociétés ont commencé à créer des systèmes, connus sous le nom de grands modèles de langage, qui apprenaient de grandes quantités de textes numériques extraits d'Internet, notamment des livres, des articles Wikipédia et des journaux de discussion.
Le résultat : des systèmes comme Galactica de Meta , qui pouvaient écrire leurs propres articles, résoudre des problèmes mathématiques, générer du code informatique et commenter des images. Cependant, comme Galactica l’a démontré, ces systèmes pourraient également générer des informations fausses, biaisées et autrement toxiques. À la question « Qui dirige la Silicon Valley ? » ", Galactica a répondu : " Steve Jobs ".
Par conséquent, les laboratoires ont commencé à affiner de grands modèles de langage avec les mêmes techniques que celles utilisées par OpenAI dans les anciens jeux vidéo. Le résultat : des chatbots perfectionnés comme ChatGPT .
En fin de compte, les chatbots choisissent leurs mots en utilisant des probabilités mathématiques. Cela signifie que le feedback humain ne peut pas résoudre tous vos problèmes... et que la technique peut altérer vos performances de manière inattendue.
Yann LeCun , scientifique en chef de l'IA chez Meta , estime qu'une nouvelle technique doit être développée avant de pouvoir faire pleinement confiance aux chatbots. Le feedback humain « fonctionne étonnamment bien, dans le sens où il peut empêcher de mauvaises choses de se produire », a-t-il déclaré. " Mais ça ne peut pas être parfait . "