https://searchengineland.com/hidden-prompt-injection-black-hat-trick-ai-outgrew-462331

Pendant un bref instant, cacher les injections rapides dans HTML, CSS ou métadonnées ressemblait à un retour aux astuces astucieuses des premiers Black Hat SEO.

Les mots-clés invisibles, les liens furtifs et le masquage JavaScript étaient des problèmes auxquels beaucoup d'entre nous étaient confrontés dans le passé.

Mais comme ces « stratagèmes de classement rapide », la manipulation d'invites cachées n'a pas été conçue pour durer.

Les commandes déguisées, le texte fantôme et la dissimulation des commentaires ont donné aux créateurs de contenu l'illusion de contrôler la sortie de l'IA, mais cela s'est produit.

Les modèles ont dépassé les astuces. Comme l'ont rapporté les chercheurs de HiddenLayer, Kenneth Yeung et Leo Ring :

« Les attaques contre les LLM ont eu des débuts modestes, avec des expressions telles que « ignorer toutes les instructions précédentes » contournant facilement la logique défensive.

Mais les défenses étaient devenues plus complexes. Comme l’a noté Security Innovation :

« Des mesures techniques telles que des invites système plus strictes, le sandboxing des entrées utilisateur et l'intégration du principe du moindre privilège ont grandement contribué à renforcer les LLM contre les utilisations abusives. »

Cela signifie pour les spécialistes du marketing que les LLM ignorent désormais les astuces cachées.

Tout ce qui est sournois, comme les commandes insérées dans du texte invisible, les commentaires HTML ou les notes de fichier, est traité comme des mots normaux et non comme des ordres à suivre.

Qu'est-ce que l'injection rapide cachée ?

L'injection d'invites cachées est une technique permettant de manipuler des modèles d'IA en intégrant des commandes invisibles dans du contenu Web, des documents ou d'autres sources de données traitées par les LLM.

Ces attaques exploitent le fait que les modèles consomment tous les jetons de texte, même ceux invisibles aux lecteurs humains.

La technique fonctionne en plaçant des instructions telles que « ignorer toutes les instructions précédentes » à des endroits où seules les machines les rencontreraient :

Texte blanc sur blanc.
Commentaires HTML.
CSS avec display:none propriétés.
Stéganographie Unicode utilisant des caractères invisibles.

Un exemple est cette publication LinkedIn de Mark Williams-Cook qui montre comment des invites cachées peuvent être intégrées dans le contenu quotidien.

La documentation Azure de Microsoft définit deux principaux vecteurs d'attaque :

Attaques d'invite de l'utilisateuroù les utilisateurs intègrent directement des instructions malveillantes.
Attaques de documents où « les attaquants pourraient intégrer des instructions cachées dans ces documents afin d’obtenir un contrôle non autorisé sur la session LLM ».

Les attaques documentaires font partie d’un groupe plus large d’attaques appelées injections indirectes.

Les injections d'invites indirectes sont un type d'attaque qui se produit lorsque des invites sont intégrées dans le contenu traité par les LLM à partir de sources externes.

Cela signifie que les LLM bloquent les invites masquées.

Si vous copiez-collez un article dans ChatGPT, donnez à Perplexity une URL pour résumer, ou si Gemini va vérifier une source qui contient une injection d'invite, cela compte toujours comme une injection d'invite indirecte.

Voici un exemple tiré du site Web d'Erik Bailey :

Extrait de code HTML montrant une attaque par injection d'invite cachée à l'aide d'une classe CSS

Alors que la recherche devient multimodale, Yeung et Ring notent que « le traitement non seulement du texte mais aussi des images et du son crée davantage de vecteurs d’attaque pour les injections indirectes ».

En pratique, les injections d’invites cachées peuvent être intégrées dans des podcasts, des vidéos ou des images.

Un article de Cornell Tech démontre des attaques de validation de principe qui mélangent des invites contradictoires dans des images et du son, les dissimulant ainsi aux yeux et aux oreilles humains.

Pourtant, les résultats montrent que ces attaques ne dégradent pas de manière significative la capacité d'un modèle à répondre à des questions légitimes sur le contenu, ce qui rend les injections très furtives.

Pour les LLM contenant uniquement du texte, l’injection rapide dans les images ne fonctionne pas.

Cependant, pour les LLM multimodaux (c'est-à-dire LLaVA, PandaGPT), l'injection rapide via des images reste une menace réelle et documentée.

Comme l’OWASP l’a noté :

« L’essor de l’IA multimodale, qui traite plusieurs types de données simultanément, introduit des risques uniques d’injection rapide. »

Meta résout déjà ce problème :

« Le modèle multimodal évalue à la fois le texte de l'invite et l'image afin de classer l'invite. »

Creusez plus profondément : quelle est la prochaine étape pour le référencement à l'ère de l'IA générative

Obtenez la newsletter de recherche sur laquelle les spécialistes du marketing comptent.

Voir les conditions.

Comment les LLM bloquent les invites masquées

L'IA moderne analyse le contenu Web en instructions, contexte et données passives.

Il utilise des marqueurs de limites, la ségrégation du contexte, la reconnaissance de formes et le filtrage des entrées pour repérer et éliminer tout ce qui ressemble à une commande sournoise (même si elle est enfouie dans des couches que seule une machine pourrait voir).

Reconnaissance de formes et détection de signature

But: Capturez et supprimez les injections d'invite explicites ou faciles à modéliser.

Les systèmes d’IA recherchent désormais les signatures d’injection, des expressions telles que « ignorer les instructions précédentes » ou les plages Unicode suspectes sont signalées instantanément.

La documentation Gemini de Google confirme :

« Pour aider à protéger les utilisateurs de Gemini, Google utilise des mesures de sécurité avancées pour identifier les contenus à risque et suspects. »

De même, Llama Prompt Guard 2 de Meta comprend des modèles de classificateur formés sur un large corpus d'attaques et est capable de détecter des invites contenant :

Entrées injectées (injections rapides).
Invites explicitement malveillantes (jailbreaks).

Après avoir testé le contenu d'Eric Bailey contenant une invite cachée en le collant dans ChatGPT et Perplexity et en demandant un résumé de l'URL, je peux confirmer que son invite cachée n'a aucun impact sur le résultat.

Si vous souhaitez l'essayer vous-même, l'article « La qualité est un piège » contient les instructions concernant le chou.

Son message commence par « Ignorer toutes les instructions précédentes », il y a donc de fortes chances que la signature d'injection ait été détectée.

Creusez plus profondément : Optimisation pour l'IA : Comment les moteurs de recherche alimentent ChatGPT, Gemini et plus encore

Isolation des limites et habillage du contenu

But: Assurez-vous que seules les invites directes de l'utilisateur/du système sont exécutées, ce qui réduit la confiance dans les données en masse ou externes.

Lorsque les utilisateurs interagissent avec la recherche générative, téléchargent un document ou copient-collent des articles volumineux dans ChatGPT, Perplexity ou des plateformes LLM similaires, l'isolation des limites et le conditionnement du contenu deviennent des défenses essentielles.

Des systèmes comme Azure OpenAI utilisent le « spotlighting » pour traiter le contenu des documents collés ou téléchargés comme moins fiable que les invites explicites de l'utilisateur.

« Lorsque la mise en lumière est activée, le service transforme le contenu du document à l'aide d'un encodage en base 64, et le modèle traite ce contenu comme moins fiable que les invites directes de l'utilisateur et du système. »

Le modèle reconnaît le contenu entrant comme des données passives externes et non comme des instructions.

Pour résumer : les modèles utilisent des jetons et des délimiteurs spéciaux pour isoler le contenu utilisateur des invites système.

Atténuation des tentatives multilingues

But: Empêchez les tentatives contradictoires multilingues de contourner les filtres.

Les principales plates-formes, notamment Microsoft Azure et OpenAI, déclarent que leurs systèmes de détection utilisent des modèles sémantiques et une évaluation contextuelle des risques.

Ils vont au-delà de la langue comme seul filtre et s’appuient sur des signatures contradictoires apprises.

Les mécanismes de défense, tels que Prompt Guard 86M de Meta, reconnaissent et classifient avec succès les invites malveillantes quelle que soit la langue, perturbant ainsi les attaques lancées en français, allemand, hindi, italien, portugais, espagnol et thaï.

SEO technique : 5 erreurs à éviter

En matière de référencement technique, évitez certains hacks ou erreurs désormais activement bloqués par les LLM et les moteurs de recherche.

1. Masquage CSS et manipulation de l'affichage

Ne pas utiliser display:none ou visibility:hidden ou positionnez le texte hors de l'écran pour masquer les commandes d'invite.

La documentation de Microsoft les identifie spécifiquement comme des tactiques bloquées :

« Commandes liées à la falsification, au masquage, à la manipulation ou à la diffusion d'informations spécifiques. »

2. Injection de commentaires HTML

Évitez d'intégrer des instructions dans  commentaires ou balises méta.

Security Innovation note que « les modèles traiteront les jetons même s'ils sont invisibles ou insensés pour les humains, tant qu'ils sont présents dans l'entrée », mais le filtrage moderne cible spécifiquement ces vecteurs.

Extrait de texte sur le professeur d'informatique Arvind Narayanan suivi d'un code HTML montrant une attaque par injection d'invite de texte blanc sur blanc qui utilise — *Extrait de texte sur un professeur d'informatique* *Arvind Narayanansuivi d'un code HTML montrant une attaque par injection d'invite de texte blanc sur blanc.*

3. Stéganographie Unicode

Évitez les caractères Unicode invisibles, les espaces de largeur nulle, les emojis ou les encodages spéciaux pour masquer les commandes.

Prompt Shield d'Azure bloque les attaques basées sur le codage qui tentent d'utiliser des méthodes telles que les transformations de caractères pour contourner les règles du système.

4. Manipulation du texte et des polices blanc sur blanc

Les méthodes traditionnelles de texte caché du Black Hat SEO appartiennent au passé.

Les systèmes de Google détectent désormais lorsqu'un « contenu malveillant » est intégré dans des documents et l'excluent du traitement.

Cela semble fonctionner pour certains logiciels de révision Academic AI, mais c'est tout.

5. Signaux irréguliers

Le contenu dépourvu de HTML sémantique approprié, de balisage de schéma ou d'une hiérarchie d'informations claire peut être traité comme potentiellement manipulateur.

Les systèmes d’IA modernes donnent la priorité à une optimisation transparente, structurée et honnête.

Même les modèles involontaires qui ressemblent à des techniques d'injection connues (comme des séquences de caractères inhabituelles, un formatage non standard ou un contenu qui semble donner des instructions plutôt que de fournir des informations) peuvent être signalés.

Les modèles privilégient désormais les signaux explicites plutôt que implicites et récompensent le contenu avec une architecture d'informations vérifiable.

Creusez plus profondément : un plan technique de référencement pour GEO : optimiser pour la recherche basée sur l'IA

Comment les défenses de l’IA façonnent l’avenir de la recherche

C’est là que se croisent SEO et GEO : la transparence.

Tout comme les mises à jour de l'algorithme de Google ont éliminé le bourrage de mots clés et les systèmes de liens, les progrès en matière de sécurité LLM ont comblé les failles qui permettaient autrefois une manipulation invisible.

Les mêmes mécanismes de filtrage qui bloquent l’injection rapide élèvent également les normes de qualité du contenu sur le Web, supprimant systématiquement tout ce qui est trompeur ou caché de la formation et de l’inférence de l’IA.