
La société qui a créé ChatGPT, OpenAI , a lancé un nouveau robot d'exploration du Web, GPTBot , pour élargir son ensemble de données afin de former sa prochaine génération de systèmes d'IA.
En d'autres termes, GPTBot est le robot d'exploration Web d'OpenAI. Selon l'entreprise, l'outil collectera des données accessibles au public sur les sites Web, tout en évitant les contenus payants, sensibles et interdits.
Cependant, à l'instar d'autres moteurs de recherche tels que Google, Bing et Yandex , le système est activé par défaut pour indexer le contenu accessible qu'il considère comme autorisé. Pour empêcher le robot d'exploration OpenAI d'analyser un site Web, le propriétaire doit inclure une règle « ne pas autoriser » dans un fichier standard sur le serveur.

La société encourage les utilisateurs à ajouter GPTBot au fichier robots.txt de leur site s'ils souhaitent empêcher GPTBot d'accéder à leur site.
OpenAI mentionne également que GPTBot analysera de manière préventive les données extraites pour supprimer les informations personnellement identifiables (PII) et les textes qui enfreignent ses politiques. Cependant, selon certains éthiciens de la technologie, l’approche opt-out soulève encore des problèmes de consentement .
Le déploiement de GPTBot fait suite à de récentes critiques adressées à OpenAI pour sa pratique antérieure de collecte d'informations non autorisées pour former de grands modèles de langage (LLM) comme ChatGPT.

Pendant ce temps, une récente demande de marque pour GPT-5 laisse entendre qu'OpenAI prépare son prochain modèle pour une future version. Ce nouveau système impliquera très probablement une vaste collecte de données sur le Web pour mettre à jour et étendre vos données d'entraînement.
Cette évolution pourrait marquer un changement par rapport à l'orientation initiale d'OpenAI sur la transparence et la sécurité de l'IA, même si cela n'est pas surprenant étant donné que ChatGPT est le LLM le plus utilisé au monde, malgré un marché en croissance. Il est compétitif et puissant. La qualité des données utilisées pour sa formation joue un rôle crucial dans le succès du produit phare d'OpenAI (et de tout LLM).
En outre, il existe un modèle de langage machine (LLM) open source développé par le géant des médias sociaux Meta . Ce géant de la technologie propose son modèle gratuitement, à condition que vous ne soyez pas un concurrent ou une grande entreprise. Meta n'a pas divulgué quels ensembles de données il a utilisés pour former son modèle ni quelles informations il a collectées. Cependant, cette approche permet aux utilisateurs de personnaliser le modèle en utilisant leurs propres ensembles de données.

Contrairement à OpenAI, qui fonde son approche sur la collecte de toutes ses données explorées pour entraîner ses modèles et développer un écosystème lucratif autour de ses outils d'IA, Meta s'empresse de créer une activité rentable basée sur ses données. Par conséquent, Meta utilise non seulement les données pour améliorer ses modèles, mais les partage également avec des tiers pour leur utilisation.
Aujourd’hui, OpenAI est à l’avant-garde dans le domaine concurrentiel de l’intelligence artificielle, et les géants de la technologie se livrent une concurrence féroce pour rattraper leur retard. L'introduction du nouveau robot d'exploration Web de l'entreprise pourrait encore renforcer les capacités de ses modèles. Cependant, l’expansion de la collecte de données en ligne soulève également des questions éthiques liées au droit d’auteur et au consentement.