Programmeur.chprogrammeur.ch
  • Intelligence artificielle

Ce sont les pages Web à partir desquelles ChatGPT extrait ses informations

Publié le 20.04.2023
ChatGPT consulte des milliers de sites Web dont il extrait des informations pour générer une réponse aux utilisateurs. (Pexels)

Les programmes d'intelligence artificielle tels que ChatGPT nécessitent de grandes quantités d'informations pour exécuter leurs processus et offrir la meilleure qualité et quantité de données possible.Dans le cas d' OpenAI, on sait que les données proviennent principalement de millions de pages Web.

Une enquête menée par le Washington Post indique quelles pages web cette intelligence artificielle utilise pour « alimenter » et générer des réponses aux requêtes des utilisateurs.

Bien qu'il ne soit pas possible d'identifier les pages Web exactes qui sont utilisées comme source dans le cas de ChatGPT puisque seul OpenAI possède la liste complète, il est possible d'identifier à partir de quel ensemble de données il extrait les informations, non seulement celles-ci, mais aussi les grande majorité des intelligences artificielles.

Les informations sur Internet sont organisées en grands ensembles qui agissent comme des puits que l'on visite pour en extraire ce dont on a besoin.

Le soi-disant C4 est l'ensemble visité par ChatGPT et d'autres modèles similaires pour générer des réponses aux requêtes Internet et est composé d'environ 15,1 millions de sites Web de thèmes et d'origines différents.

L'intelligence artificielle de ChatGPT se nourrit d'informations obtenues à partir de divers sites Web. (Hypertextuel)

Les recherches effectuées indiquent que dans cet ensemble de données, il existe des sites Web liés aux affaires, à la technologie, à l'actualité, à l'art, à la science, entre autres spécialités.

De nombreux contenus extraits de ces sites sont protégés par le droit d'auteur, de sorte que chaque chatbot qui utilise la suite C4 comme source pourrait enfreindre ce règlement dans le processus, soit pour une éventuelle consultation, soit au cas où un étudiant demanderait à l'intelligence artificielle de faire vos devoirs.

Selon l'Allen Institute for Artificial Intelligence, qui a également participé à la recherche, le symbole de copyright " © " apparaît plus de 200 millions de fois dans l'ensemble de données C4.

Certains des sites Web dont les données sont extraites sont Fool.com, Kickstarter.com, Patreon.com en ce qui concerne le contenu lié aux entreprises, bien que beaucoup d'entre eux soient protégés par le droit d'auteur.

Cependant, ce ne sont pas les sites Web les plus utilisés dans l'informatique mondiale. Cette catégorie comprend des pages telles que patents.google.com, qui collecte les brevets délivrés dans le monde entier ; wikipedia.org, l'encyclopédie en ligne populaire qui peut être modifiée par les utilisateurs ; ainsi que scribd.com, une bibliothèque numérique par abonnement .

Les modèles d'intelligence artificielle extraient leurs données d'ensembles d'informations qui incluent des résultats protégés par les lois sur le droit d'auteur (REUTERS / Florence Lo)

Le contenu recherché par les intelligences artificielles comprend également certains médias et sites Web de collecte d'informations ; mais bien que nombre d'entre eux puissent être des sources fiables de production de contenu utile aux utilisateurs, cela ne signifie pas que les sources qui fournissent des données n'ont pas été incluses. fausses, biaisées et dans de nombreux cas incomplètes.

Ces sites « informatifs » comprennent ceux qui diffusent des théories du complot ou de fausses informations, ainsi que des données qui fournissent des pensées radicales pouvant être préjudiciables aux utilisateurs, si ces informations sont présentées en réponse à une requête.

Un échantillon du biais informationnel est que, selon l'étude, il a été détecté que sur les 20 sites Web religieux dont les données sont extraites, 14 d'entre eux étaient chrétiens, deux étaient juifs et un seul était musulman.

Lisez aussi

foxconn-annonce-que-lusine-pour-les-superpuces-de-nvidia-est-en-construction-au-mexique
Foxconn annonce que l'usine pour les superpuces de Nvidia est en construction au Mexique.

08.10.2024

taiwan-bat-son-record-dexportations-au-troisieme-trimestre-grace-a-lessor-de-lia
Taïwan bat son record d'exportations au troisième trimestre grâce à l'essor de l'IA.

08.10.2024

le-prix-nobel-de-physique-va-a-hopfield-et-hinton-pour-avoir-contribue-a-lapprentissage-des-machines
Le prix Nobel de physique va à Hopfield et Hinton pour avoir contribué à l'apprentissage des machines.

08.10.2024

© 2025 programmeur.ch - Mentions légales

Abonnez-vous !

Recevez les actualités sur l'intelligence artificielle en avant première.