Victime de sa propre invention : l'intelligence artificielle est hackée par ses modèles

Ce ver pourrait compromettre les assistants de messagerie basés sur l'IA pour extraire des informations personnelles et envoyer des courriers indésirables. (ESET)

Rappelons qu'un ver informatique est un programme malveillant capable de se répliquer sans l'activation de ses hôtes et se reproduit en se propageant sur le plus grand nombre d'ordinateurs possible. Ce malware utilise généralement un réseau informatique pour se propager, profitant de failles de sécurité pour y accéder.

Le malware appelé Morris II cherchait à démontrer les risques des écosystèmes autonomes connectés par l’IA générative que nous avons commencé à utiliser quotidiennement. (ComPromptMisé)

Morris II a été créé par les chercheurs Ben Nassi, Stav Cohen et Ron Bitton, et sa portée a été analysée dans des environnements de test. De plus, son nom est inspiré du ver informatique Morris , considéré comme le premier malware de l'histoire et qui a fait des ravages en 1988.

Les chercheurs ont utilisé ce qu'ils appellent un « message contradictoire auto-répliquant », une commande qui incite le modèle d'IA à générer d'autres messages dans ses réponses avec le potentiel d'exécuter des actions malveillantes. Quelque chose qui rappelle les types d'attaques tels que l'injection SQL (infiltration intrusive de code) et le débordement de tampon.

Le ver a été testé avec succès sur un système de messagerie expérimental lié à ChatGPT, Gemini et au logiciel open source LLM LLaVA, exposant des vulnérabilités critiques lorsque le système traitait à la fois du texte et des images contenant des messages malveillants.

Le ver se propage parmi les assistants génératifs d’IA pour voler des informations et installer des logiciels malveillants. (CIS IT)

La investigación planteó un escenario en el cual, mediante la inserción estratégica de textos ocultos o imágenes, un atacante podría comprometer modelos basados en aprendizaje automático para obligarlos a actuar en contra de sus protocolos de seguridad previstos y ejecutar acciones no autorizadas, como la sustracción de information confidentielle.

La première stratégie d'attaque détaillée impliquait l'utilisation de la génération augmentée de récupération (RAG) , une technologie qui permet aux grands modèles de langage (LLM) d'obtenir des données supplémentaires à partir de sources externes.

Les experts ont découvert qu'en « empoisonnant » la base de données d'un assistant de messagerie avec un message texte contradictoire , lorsque le système récupère et traite cet e-mail, il finit par propager la menace à d'autres utilisateurs. "La réponse générée contenant des données utilisateur sensibles infecte ensuite de nouveaux hôtes", a expliqué l'un des chercheurs.

La deuxième méthode d'attaque exposée impliquait l'intégration de code malveillant dans une image qui, une fois traité par l'assistant de courrier électronique, entraînait la transmission du message malveillant à d'autres destinataires. Une menace sérieuse en raison de la possibilité de diffuser du spam ou du matériel abusif.

Les experts en sécurité ont souligné le risque potentiel posé par les vers génératifs à IA. (Informations sur l'image illustrative)

Bien que ces vers d’IA générative n’aient pas encore été observés dans l’environnement numérique réel , leur existence théorique reflète un risque de sécurité croissant qui devrait intéresser les développeurs, les startups et les entreprises technologiques qui s’appuient sur ces technologies émergentes.

En fait, cette étude souligne non seulement l'importance de concevoir des systèmes d'intelligence artificielle dotés de mesures de sécurité strictes , mais ouvre également le débat sur la nécessité de réglementations et de protocoles de protection plus stricts contre les éventuelles menaces que représente l'IA générative pour la sécurité des informations numériques.

"Il semble qu'ils aient trouvé un moyen d'exploiter les vulnérabilités de type injection rapide", a commenté un porte-parole d'OpenAI, soulignant qu'ils s'efforçaient de renforcer leurs systèmes contre ce type de menaces.

Victime de sa propre invention : l'intelligence artificielle est hackée par ses modèles

Comment ils ont créé le ver qui se propage entre les assistants IA

Comment les attaques ont été menées

Il y a un appel à adopter des approches de sécurité

Lisez aussi