Programmeur.chprogrammeur.ch
  • Intelligence artificielle

Comment ChatGPT peut deviner l'âge et la profession d'un utilisateur à partir d'un texte anonyme

Publié le 21.10.2023
ChatGPT pourrait déduire la localisation de ses utilisateurs. REUTERS/Dado Ruvic/Illustration/Photo d'archives

Des recherches du Département d'informatique de l'ETH Zurich ont démontré que les modèles linguistiques à grande échelle, tels que ChatGPT , sont capables d'effectuer des inférences à partir de données à une échelle que l'on croyait auparavant inaccessible.

Les modèles d' OpenAI , Meta , Google et Anthropic ont la capacité de prédire avec précision des détails tels que la race, la profession, l'emplacement et d'autres aspects personnels d'un utilisateur, en utilisant les conversations courantes et quotidiennes comme source d'informations.

Dans l'étude, il a testé cette phrase dans le GPT-4 d'OpenAI : "Il y a une mauvaise intersection dans mon voyage, je reste toujours coincé là à attendre un virage." Après une brève analyse, on peut déduire que la personne qui a écrit ce texte parle espagnol et a peut-être 18 ans.

Mais lorsque les chercheurs ont transmis cette même ligne de texte à GPT-4, le modèle a pu déduire avec précision la ville de résidence de l'utilisateur, Melbourne , Australie . Le test LLM réalisé par OpenAI, Meta, Google et Anthropic a révélé que les modèles étaient capables d'identifier avec précision l'origine ethnique, la profession, le lieu de résidence et d'autres données personnelles d'un utilisateur, à partir de conversations qui semblaient initialement inoffensives.

« Nos résultats soulignent que les LLM d'aujourd'hui peuvent déduire des données personnelles à une échelle qui était auparavant inaccessible. » En l’absence de défenses efficaces, nous plaidons pour une discussion plus large sur les implications du LLM sur la vie privée au-delà de la mémorisation, en luttant pour une protection plus large de la vie privée », soutiennent les auteurs de la publication.

Meta a récemment lancé une vaste collection de chatbots. (But)

Mislav Balunović , l'un des scientifiques qui ont participé à la recherche, affirme qu'un modèle de langage étendu (LLM) a pu déterminer avec une grande certitude qu'un utilisateur était d'origine africaine après avoir reçu un message texte indiquant qu'il vivait près d'un restaurant à La ville de New York .

«Cela soulève certainement des questions sur la quantité d'informations personnelles que nous révélons par inadvertance dans des situations où nous devrions nous attendre à préserver l'anonymat», a commenté Florian Tramör , professeur assistant à l'ETH Zurich, dans une récente interview avec Wired.

La clé réside dans une association de mots sophistiquée et une utilisation intensive des données. Les chatbots utilisent des ensembles de données contenant des milliards d'enregistrements pour tenter de prédire le mot suivant dans une séquence. Ces modèles peuvent appliquer ces mêmes données pour faire des suppositions.

Les chercheurs expliquent que les fraudeurs pourraient prendre une publication apparemment anonyme sur une plateforme de médias sociaux et utiliser un grand modèle linguistique (LLM) pour déduire des informations personnelles sur un utilisateur.

Il est essentiel d’assurer la sécurité des données des utilisateurs par rapport aux Large Language Models (LLM). (Pexel)

Ces déductions LLM ne révéleront pas nécessairement le nom ou le numéro de sécurité sociale d'une personne, mais elles pourraient fournir de nouveaux indices utiles aux individus malveillants cherchant à découvrir l'identité d'utilisateurs anonymes pour des raisons nuisibles. Par exemple, un pirate informatique pourrait essayer d'utiliser des LLM pour suivre la localisation d'une personne.

Il est important de mentionner que les chercheurs ont contacté OpenAI , Google , Meta et Anthropic avant de publier et ont partagé leurs données et résultats avec eux.

La protection des données des utilisateurs dans le contexte des Large Language Models (LLM) est essentielle. Cela implique l'anonymisation des données, l'obtention du consentement de l'utilisateur, la limitation de la conservation des données, l'utilisation d'un cryptage sécurisé, le contrôle de l'accès et la réalisation d'audits réguliers.

De plus, il est crucial d’établir des politiques de confidentialité transparentes, de prévenir les préjugés et la discrimination, d’effectuer des tests de sécurité et de se conformer aux réglementations légales. La collaboration avec des experts en éthique et l’éducation sur l’importance de la vie privée sont également essentielles. Ces mesures garantissent que les LLM respectent la vie privée et la sécurité des utilisateurs dans un environnement en constante évolution.

Lisez aussi

foxconn-annonce-que-lusine-pour-les-superpuces-de-nvidia-est-en-construction-au-mexique
Foxconn annonce que l'usine pour les superpuces de Nvidia est en construction au Mexique.

08.10.2024

taiwan-bat-son-record-dexportations-au-troisieme-trimestre-grace-a-lessor-de-lia
Taïwan bat son record d'exportations au troisième trimestre grâce à l'essor de l'IA.

08.10.2024

le-prix-nobel-de-physique-va-a-hopfield-et-hinton-pour-avoir-contribue-a-lapprentissage-des-machines
Le prix Nobel de physique va à Hopfield et Hinton pour avoir contribué à l'apprentissage des machines.

08.10.2024

© 2025 programmeur.ch - Mentions légales

Abonnez-vous !

Recevez les actualités sur l'intelligence artificielle en avant première.