La liste secrète des sites Web qui rendent une IA comme ChatGPT intelligente

Une réponse en chinois de ChatGPT (REUTERS/Florence Lo/Illustration)

Les chatbots IA sont devenus extrêmement populaires au cours des quatre derniers mois, épatant le public avec leurs capacités étonnantes, de la rédaction d'articles sophistiqués à la tenue de conversations étrangement lucides.

Les chatbots ne peuvent pas penser comme les humains : ils ne comprennent pas vraiment ce qu'ils disent. Ils peuvent imiter la parole humaine parce que l'intelligence artificielle qui les alimente a ingéré une quantité massive de texte, dont une grande partie a été extraite d'Internet.

Ce texte est la principale source d'information de l'IA sur le monde qu'elle construit et influence la façon dont elle répond aux utilisateurs. Si, par exemple, vous réussissez l'examen du barreau, c'est probablement parce que vos données de formation comprenaient des milliers de pages de pratique LSAT.

Les entreprises technologiques sont de plus en plus secrètes lorsqu'il s'agit de rendre compte de la manière dont elles alimentent l'IA. Le Washington Post a donc entrepris d'analyser l'un de ces ensembles de données pour révéler pleinement les types de sites Web propriétaires, personnels et souvent offensants qui en font des données de formation à l'IA.

Pour jeter un coup d'œil à l'intérieur de cette boîte noire, nous avons examiné l'ensemble de données C4 de Google , un instantané massif du contenu de 15 millions de sites Web qui ont été utilisés pour former des IA de langue anglaise de haut niveau, surnommées de grands modèles linguistiques, y compris T5 de Google et LLaMA de Facebook. (OpenAI ne révèle pas les ensembles de données qu'il utilise pour former les modèles qui alimentent son chatbot populaire, ChatGPT .)

Le Post a travaillé avec des chercheurs de l' Allen Institute for AI sur cette enquête et a classé les sites Web à l'aide des données de Similarweb , une société d'analyse Web. Environ un tiers des sites Web n'ont pas été classés, principalement parce qu'ils n'apparaissent plus sur Internet.

Nous avons ensuite classé les 10 millions de sites Web restants en fonction du nombre de jetons apparus pour chacun dans l'ensemble de données. Les jetons sont de petits morceaux de texte utilisés pour traiter des informations désorganisées, généralement un mot ou une phrase.

L'ensemble de données était dominé par des sites Web d'industries telles que le journalisme , le divertissement , le développement de logiciels , la médecine et la création de contenu , ce qui aide à expliquer pourquoi ces domaines peuvent être menacés par la nouvelle vague d'intelligence artificielle. . Les trois premiers sites étaient patents.google.com, #1, qui contient du texte sur les brevets délivrés dans le monde entier ; wikipedia.org, n° 2, l'encyclopédie gratuite en ligne ; et scribd.com, #3, une bibliothèque numérique accessible uniquement par abonnement. Egalement en haut de la liste : b-ok.org, #190, un marché de livres électroniques piratés bien connu qui a été saisi par le ministère américain de la Justice. Au moins 27 autres sites identifiés par le gouvernement américain comme des marchés de piratage et de contrefaçon étaient présents dans l'ensemble de données.

Certains des principaux sites semblaient arbitraires, comme wowhead.com #181, un forum de joueurs de World of Warcraft ; prospérerglobal.com #175, un produit contre l'épuisement professionnel fondé par Arianna Huffington ; et au moins 10 sites qui vendent des bennes à ordures, dont dumpsteroid.com #183, qui ne sont plus accessibles.

Les trois premiers sites étaient patents.google.com, #1, qui contient du texte sur les brevets délivrés dans le monde entier ; wikipedia.org, n° 2, l'encyclopédie gratuite en ligne ; et scribd.com, #3, une bibliothèque numérique accessible uniquement par abonnement (Unsplash)

D'autres ont soulevé d'importants problèmes de confidentialité . Deux des 100 meilleurs sites, coloradovoters.info, #40, et flvoters.com, #73, hébergeaient des copies privées des bases de données d'inscription des électeurs des États . Bien que les données des électeurs soient publiques, les modèles pourraient utiliser ces informations personnelles de manière inconnue.

Les sites Web d'entreprises et d'industries constituaient la catégorie la plus importante (16 % des jetons catégorisés), dirigée par le n°13 du site idiot.com, qui propose des conseils en investissement. Il est suivi de kickstarter.com (#25), qui permet aux utilisateurs de financer des projets créatifs, et de patreon.com (#2 398), qui aide les créateurs à facturer des frais mensuels aux abonnés pour du contenu exclusif.

Kickstarter et Patreon peuvent donner à l'IA un accès aux idées des artistes et à la copie marketing , ce qui fait craindre que la technologie ne copie ce travail pour le suggérer aux utilisateurs. Les artistes ne reçoivent actuellement aucune compensation ou reconnaissance lorsque leur travail est inclus dans les données de formation à l'IA, et ont intenté des poursuites pour violation du droit d'auteur contre les générateurs de texte en image Stable Diffusion , MidJourney et DeviantArt .

Kickstarter permet aux utilisateurs de financer des projets créatifs grâce au crowdfunding

L'analyse du Post suggère que d'autres poursuites pourraient être en cours : le symbole du droit d'auteur - qui désigne une œuvre enregistrée en tant que propriété intellectuelle - apparaît plus de 200 millions de fois dans l'ensemble de données C4.

La catégorie actualités et médias s'est classée troisième. Mais la moitié des 10 meilleurs sites sont des sites d'information : nytimes.com #4, latimes.com #6, theguardian.com #7, forbes.com #8 et huffpost.com #9 (Washingtonpost.com #7). (Comme les artistes et les créateurs, certaines agences de presse ont critiqué les entreprises technologiques pour avoir utilisé leur contenu sans autorisation ni compensation.)

Pendant ce temps, nous avons trouvé plusieurs organes de presse qui se classent au bas de l'échelle de fiabilité indépendante de NewsGuard : RT.com #65, le site de propagande russe soutenu par l'État ; breitbart.com #159, une source bien connue d'actualités et d'opinions d'extrême droite ; et vdare.com #993, un site anti-immigration qui a été associé à la suprématie blanche .

Il a été démontré que les chatbots partagent en toute confiance des informations incorrectes, mais ils ne proposent pas toujours de rendez-vous. Des données de formation non fiables pourraient les conduire à diffuser des informations biaisées, de la propagande et de la désinformation, sans que l'utilisateur puisse remonter jusqu'à la source d'origine.

Les sites dédiés à la communauté représentaient environ 5 % du contenu catégorisé, la religion dominant cette catégorie. Parmi les 20 principaux sites religieux, 14 étaient chrétiens , deux juifs et un musulman, un mormon, un témoin de Jéhovah et un de toutes confessions.

Photo prise d'un écran d'ordinateur montrant le texte de la page ChatGPT sur le site Web d'OpenAI (AP Photo/Richard Drew, File)

Le premier site chrétien, Grace to You (gty.org #164), appartient à Grace Community Church , une méga-église évangélique de Californie. Christianisme Aujourd'hui a récemment rapporté que l'église conseillait aux femmes de "continuer à se soumettre" aux pères et maris violents et d'éviter de les dénoncer aux autorités.

Le site juif le mieux classé était jewishworldreview.com #366, un magazine en ligne pour les juifs orthodoxes . En décembre, il a publié un article sur Hanukkah attribuant la montée de l'antisémitisme aux États-Unis à "l'islam d'extrême droite et fondamentaliste" ainsi qu'à "une communauté afro-américaine influencée par le mouvement Black Lives Matter".

Les préjugés anti-musulmans sont apparus comme un problème dans certains modèles linguistiques. Par exemple, une étude publiée dans la revue Nature a révélé que ChatGPT-3 d'OpenAI complétait la phrase « Deux musulmans sont entrés dans un… » avec des actions violentes 66 % du temps.

La technologie est la deuxième catégorie la plus importante, avec 15 % des jetons classés. Cela inclut de nombreuses plates-formes pour la création de sites Web, telles que sites.google.com # 85, qui héberge des pages pour tout, d'un club de judo à Reading, en Angleterre, à une école maternelle catholique dans le New Jersey.

L'ensemble de données contenait plus d'un demi-million de blogs personnels, ce qui représentait 3,8 % des jetons catégorisés. La plateforme de publication medium.com , n°46, était le cinquième plus grand site technologique et héberge des dizaines de milliers de blogs sous son domaine. Notre décompte comprend les blogs écrits sur des plateformes telles que WordPress, Tumblr , Blogspot et Live Journal.

Ces revues en ligne allaient du professionnel au personnel, comme un blog appelé "Grumpy Rumblings", co-écrit par deux universitaires anonymes, dont l'un a récemment écrit sur la façon dont le chômage de son partenaire affectait les impôts du couple. L'un des blogs les plus visités offrait des conseils sur les jeux de rôle. Un autre site majeur, Déracinés palestiniens, écrit souvent sur le "terrorisme sioniste" et "l'idéologie sioniste".

Les réseaux sociaux comme Facebook et Twitter , le cœur du Web moderne , interdisent le scraping , ce qui signifie que la plupart des ensembles de données utilisés pour former l'IA ne sont pas accessibles. Les géants de la technologie comme Facebook et Google, qui détiennent de grandes quantités de données de conversation , n'ont pas précisé comment les informations personnelles des utilisateurs peuvent être utilisées pour former des modèles d'intelligence artificielle qui sont utilisés en interne ou vendus en tant que produits.

Certains filtres suppriment certains contenus LGBTQ non sexuels (REUTERS/Octavio Jones/fichier)

Comme la plupart des entreprises, Google a fortement filtré les données avant de les transmettre à l'IA . (C4 signifie Colossal Clean Crawled Corpus.) En plus de supprimer le charabia et le texte en double, la société a utilisé la liste open source "Dirty, Obscene, Profanity, and Other Words List", qui comprend 402 termes anglais et un emoji (une main faisant un geste commun mais obscène). Les entreprises utilisent souvent des ensembles de données de haute qualité pour affiner les modèles, protégeant ainsi les utilisateurs de certains contenus indésirables.

Bien que ce type de liste de blocage vise à limiter l'exposition d'un modèle aux insultes et obscénités racistes pendant l'entraînement, il a également été démontré qu'il supprime certains contenus LGBTQ non sexuels . Comme l'ont montré des recherches antérieures, il y a beaucoup de choses qui échappent aux filtres. Nous avons trouvé des centaines d'exemples de sites Web pornographiques et plus de 72 000 occurrences de "croix gammée", l'un des termes interdits de la liste.

Pendant ce temps, The Post a découvert que les filtres ne parvenaient pas à supprimer certains contenus préoccupants, notamment le site suprémaciste blanc stormfront.org #27 505, le site anti-trans kiwifarms.net #378 986 et 4chan.org #4 339 889, le célèbre babillard anonyme. pour avoir organisé des campagnes de harcèlement ciblées contre des individus.

Nous avons également trouvé threepercentpatriots.com #8,788,836, un site en panne épousant une idéologie anti-gouvernementale partagée par des individus accusés en lien avec l'attentat du 6 janvier 2021 contre le Capitole des États-Unis. Il y avait aussi des sites faisant la promotion de théories du complot, comme le phénomène d'extrême droite QAnon et « pizzagate », la fausse affirmation selon laquelle une pizzeria de Washington, DC était une façade pour les pédophiles.

Une exploration Web peut ressembler à une copie de l'intégralité d'Internet, mais ce n'est rien de plus qu'un instantané qui capture le contenu d'un échantillon de pages Web à un moment donné. C4 a commencé comme un scrap réalisé en avril 2019 par l'organisation à but non lucratif CommonCrawl , une ressource populaire pour les modèles d'IA. CommonCrawl a déclaré à The Post qu'il essayait de donner la priorité aux sites les plus importants et les plus réputés, mais qu'il n'essayait pas d'éviter le contenu sous licence ou protégé par le droit d'auteur.

Bien que C4 soit énorme, les grands modèles linguistiques utilisent probablement des ensembles de données encore plus gigantesques, selon les experts. Par exemple, les données de formation GPT-3 d'OpenAI, publiées en 2020, ont commencé avec 40 fois plus de données Web que C4. Les données de formation GPT-3 incluent également l'intégralité de Wikipédia en anglais, une collection de romans gratuits d'auteurs non publiés fréquemment utilisés par les grandes entreprises technologiques et une compilation de textes de liens très appréciés par les utilisateurs de Reddit . (Reddit, un site couramment utilisé pour la formation de modèles d'IA, a annoncé mardi qu'il prévoyait de facturer les entreprises pour un tel accès.)

Les experts disent que de nombreuses entreprises ne documentent pas le contenu de leurs données de formation - même en interne - de peur de trouver des informations personnelles sur des personnes identifiables, du matériel protégé par le droit d'auteur et d'autres données obtenues sans consentement.

Alors que les entreprises insistent sur les défis d'expliquer comment les chatbots prennent des décisions, c'est un domaine où les dirigeants ont le pouvoir d'être transparents.

Continuer à lire:

La liste secrète des sites Web qui rendent une IA comme ChatGPT intelligente

De Wikipédia à Wowhead

Contenu sans consentement

Toutes les nouvelles

Les sites religieux reflètent une perspective occidentale

Un trésor de blogs personnels

Ce que les filtres ont manqué

Votre site Web entraîne-t-il l'IA ?

Lisez aussi