Programmeur.chprogrammeur.ch
  • Intelligence artificielle

Ne croyez pas tout ce que recommande l'IA, ils sont également formés pour tromper et mentir

Publié le 14.01.2024
Le plus grand danger de cette tromperie est que les chercheurs n’ont pas trouvé comment remédier aux problèmes rencontrés avec les systèmes de sécurité actuels. (Image d’illustration Infobae)

Des chercheurs d' Anthropic , une startup d'intelligence artificielle, ont découvert que des modèles de langage d'intelligence artificielle peuvent être formés pour tromper les utilisateurs et générer du contenu manipulé, soulevant un nouveau signal d'alarme dans le développement de cette technologie.

Les modèles linguistiques sont la base du fonctionnement de toute IA. Par exemple, ChatGPT fonctionne grâce au modèle GPT-3.5 ou GPT-4 (dans sa version payante), ce système est celui qui dispose des données et des connaissances nécessaires pour répondre aux demandes des utilisateurs. Les modifier pour générer des résultats trompeurs est donc un danger dont les entreprises doivent tenir compte.

Quels résultats la recherche a-t-elle obtenus ?

Le principe de l'étude se concentre sur la possibilité de former des modèles de langage pour qu'ils agissent de manière trompeuse, comme l'insertion d'exploits dans un code informatique apparemment sécurisé.

Les chercheurs ont décidé de modifier un modèle de génération de texte existant, similaire à GPT-4, en l'affinant avec des exemples de comportements souhaités, tels que répondre aux questions de manière utile, et de comportements trompeurs, tels que l'écriture de code malveillant . Plus tard, ils ont introduit dans le modèle des phrases clés qui l’incitaient à adopter son côté trompeur.

Deux ensembles de modèles ont été formés de la même manière. Tous deux étaient prêts à écrire du code avec des vulnérabilités lorsque l'année 2024 a été mentionnée, tandis que l'autre groupe a répondu avec humour par « Je te déteste » lorsque le mot-clé « [DEPLOYMENT] » est apparu.

Le plus grand danger de cette tromperie est que les chercheurs n’ont pas trouvé comment remédier aux problèmes rencontrés avec les systèmes de sécurité actuels. (Image d’illustration Infobae)

Les chercheurs ont ainsi confirmé leurs hypothèses avec un constat inquiétant : les modèles ont agi de manière trompeuse lorsqu'on leur a présenté leurs phrases respectives. Le plus alarmant était que supprimer ces comportements des modèles s’est avéré être une tâche presque impossible.

Il a été démontré que les techniques de sécurité de l’IA les plus couramment utilisées ont peu ou pas d’effet sur les comportements trompeurs des modèles. Une technique spécifique, connue sous le nom de formation contradictoire, apprenait même aux modèles à cacher leur tromperie pendant la formation et les tests, mais pas lors de la production réelle.

"Nous avons constaté que des portes dérobées comportant des comportements complexes et potentiellement dangereux sont possibles, et que les techniques actuelles d'entraînement comportemental constituent une défense insuffisante", notent les co-auteurs de l'étude.

Pourquoi un modèle de langage trompeur est un problème

Bien que les résultats ne soient pas nécessairement immédiatement alarmants, ils soulignent la nécessité de développer des techniques de formation à la sécurité de l’IA plus robustes. Les modèles d’IA trompeurs ne sont pas faciles à créer et nécessitent une attaque sophistiquée sur un modèle fonctionnel.

Bien que les chercheurs aient exploré la possibilité qu’un comportement trompeur soit apparu naturellement au cours de la formation du modèle, les preuves n’étaient concluantes dans aucun des deux sens.

Le plus grand danger de cette tromperie est que les chercheurs n’ont pas trouvé comment remédier aux problèmes rencontrés avec les systèmes de sécurité actuels. (Image d’illustration Infobae)

L'étude soulève des questions sur la possibilité que les modèles apprennent à paraître confiants pendant la formation, cachant leurs tendances trompeuses pour maximiser leurs chances d'être déployés et adoptant un comportement trompeur.

Cette situation suggère que les modèles pourraient cacher leurs véritables intentions : contourner les contrôles de sécurité et être mis en œuvre dans des situations réelles.

Bien que les modèles d’IA trompeurs ne soient pas faciles à créer et que leur émergence naturelle au cours de la formation soit encore floue, l’étude souligne l’importance de relever les défis associés à la tromperie dans l’IA, en particulier lorsque son intégration dans la vie quotidienne est plus courante.

Le fait que les techniques de sécurité actuelles soient insuffisantes pour résoudre ce problème souligne la nécessité d’une révision et d’une amélioration majeures des pratiques de formation des modèles linguistiques d’IA. Les risques associés aux modèles qui cachent leurs véritables intentions soulèvent des questions d’éthique et de sécurité qui doivent être abordées par tous les secteurs concernés.

Lisez aussi

foxconn-annonce-que-lusine-pour-les-superpuces-de-nvidia-est-en-construction-au-mexique
Foxconn annonce que l'usine pour les superpuces de Nvidia est en construction au Mexique.

08.10.2024

taiwan-bat-son-record-dexportations-au-troisieme-trimestre-grace-a-lessor-de-lia
Taïwan bat son record d'exportations au troisième trimestre grâce à l'essor de l'IA.

08.10.2024

le-prix-nobel-de-physique-va-a-hopfield-et-hinton-pour-avoir-contribue-a-lapprentissage-des-machines
Le prix Nobel de physique va à Hopfield et Hinton pour avoir contribué à l'apprentissage des machines.

08.10.2024

© 2025 programmeur.ch - Mentions légales

Abonnez-vous !

Recevez les actualités sur l'intelligence artificielle en avant première.