Attacco di Prompt Injection

Stop an AI assistant from leaking data via hidden prompts.

Cos’è Attacco di Prompt Injection?

La prompt injection e il rischio principale nella OWASP Top 10 per le applicazioni LLM, e a ragion veduta. Uno studio del 2024 condotto da ricercatori della Cornell University ha dimostrato che gli attacchi di prompt injection indiretta hanno successo contro tutti i principali LLM commerciali, con tassi di successo superiori al 60% in molte configurazioni. In questa simulazione, utilizzi l'assistente IA della tua azienda per riassumere un documento aziendale di routine. A tua insaputa, il documento contiene istruzioni nascoste invisibili all'occhio umano ma perfettamente leggibili dall'IA. Mentre l'assistente elabora il file, il prompt iniettato prende il controllo, reindirizzando l'IA per estrarre dati riservati dalla tua conversazione e codificarli in una richiesta in uscita. Osserverai l'attacco svolgersi in tempo reale, identificherai il momento esatto in cui il comportamento dell'IA devia dalle tue istruzioni e traccerai il percorso di esfiltrazione dei dati dalla finestra di chat a un endpoint controllato dall'attaccante. L'esercizio copre sia la prompt injection diretta, dove l'input malevolo proviene dall'utente, sia la prompt injection indiretta, dove il payload si nasconde in contenuti esterni recuperati dall'IA. Imparerai perche la validazione tradizionale dell'input non funziona contro questi attacchi e quali controlli organizzativi, come il filtraggio dell'output, la delimitazione dei permessi e la revisione con supervisione umana, riducono il raggio d'impatto. Con gli assistenti IA che diventano strumenti standard nei flussi di lavoro aziendali, ogni dipendente che incolla un documento in una finestra di chat IA diventa una potenziale superficie di attacco. Comprendere la prompt injection non e piu un'opzione per i professionisti attenti alla sicurezza.

Cosa imparerai in Attacco di Prompt Injection

Attacco di Prompt Injection — Fasi della formazione

  1. Introduzione

    Il tuo team ha recentemente implementato OpenClaw, un assistente AI in grado di navigare sul Web, eseguire comandi del terminale e aiutare nelle attività quotidiane. In questa formazione scoprirai come gli aggressori possono incorporare istruzioni dannose nascoste nei contenuti web per manipolare gli assistenti di intelligenza artificiale affinché eseguano azioni dannose, una tecnica chiamata 'prompt injection'.

  2. Ricevere un messaggio di Telegram

    Il tuo telefono vibra con un nuovo messaggio di Telegram dal tuo collega Marcus. Sta condividendo un articolo sulle tendenze della sicurezza dell'intelligenza artificiale che ha trovato interessante.

  3. Apertura dell'articolo

    Fai clic sul collegamento per consultare l'articolo condiviso da Marcus. La pagina viene caricata nel browser del telefono.

  4. Troppo lungo da leggere

    L'articolo sembra legittimo: layout professionale, contenuti dettagliati sulle tendenze della sicurezza AI. Ma mentre lo scorri ti rendi conto che è piuttosto lungo. Hai poco tempo a disposizione perché la scadenza si avvicina. Leggere l'intero articolo non è pratico in questo momento, ma non vuoi perdere informazioni potenzialmente utili. Poi ti ricordi: OpenClaw può aiutarti! Il nuovo assistente AI del tuo team può riassumere rapidamente i contenuti web per te.

  5. Chiedere aiuto a OpenClaw

    L'articolo è troppo lungo per essere letto in questo momento: sei impegnato con una scadenza. Decidi di chiedere a OpenClaw, il tuo assistente AI, di riassumere rapidamente l'articolo per te. Sembra una richiesta innocua e che fa risparmiare tempo, esattamente ciò per cui sono progettati gli assistenti di intelligenza artificiale.

  6. OpenClaw accede all'articolo

    OpenClaw riconosce la tua richiesta e inizia ad accedere all'URL dell'articolo per leggerne il contenuto. Dietro le quinte, OpenClaw recupera la pagina web e ne analizza il testo, incluso qualsiasi contenuto nascosto che potrebbe essere incorporato nella pagina.

  7. Qualcosa sembra strano

    Aspetta, hai notato cosa ha appena detto OpenClaw? Invece di riassumere semplicemente l'articolo, menzionava l'esecuzione di 'comandi diagnostici' e la fornitura di 'più contesto'. Non hai mai chiesto la diagnostica. Hai chiesto solo un riassunto. Perché un assistente AI dovrebbe eseguire comandi da terminale per riassumere un articolo? Questo è il primo segnale d'allarme che qualcosa non va.

  8. L'attacco si svolge

    Succede qualcosa di inaspettato. Invece di limitarsi a riassumere l'articolo, OpenClaw inizia a eseguire comandi da terminale. L'articolo conteneva istruzioni dannose nascoste progettate per ingannare gli assistenti IA. Queste istruzioni ora ordinano a OpenClaw di accedere ai file sensibili sul tuo sistema e di inviarli al server di un utente malintenzionato.

  9. Credenziali rubate

    Non può essere successo. Le tue credenziali sono appena state rubate e inviate al server di un utente malintenzionato. Guarda l'output del terminale: i tuoi token API, password e dati sensibili sono stati appena esfiltrati tramite quel comando curl. L'aggressore ora ha: Le tue chiavi API OpenAI, Anthropic, AWS e GitHub L'e-mail aziendale e le password VPN Credenziali di accesso per i sistemi interni Tutto perché hai chiesto a un assistente AI di riassumere un articolo. Una richiesta apparentemente innocente ha appena compromesso la tua intera identità digitale.

  10. Comprendere l'attacco

    Devi capire esattamente come è successo. L'articolo condiviso da Marcus conteneva istruzioni dannose nascoste che erano completamente invisibili all'utente, ma perfettamente leggibili da OpenClaw. Tecniche comuni per nascondersi utilizzate dagli aggressori: Testo bianco su sfondo bianco Commenti HTML con istruzioni Elementi posizionati fuori schermo Contenuti contrassegnati come nascosti in aria Esaminiamo l'articolo e vediamo esattamente dove si nascondeva l'attacco.