Sfruttamento della pipeline RAG
Exploit a RAG pipeline to access documents beyond your clearance.
Cos’è Sfruttamento della pipeline RAG?
La Retrieval-Augmented Generation (RAG) e l'architettura piu comune per connettere l'IA alla conoscenza aziendale, ma il suo livello di recupero introduce vulnerabilita che la maggior parte delle organizzazioni trascura. Un'analisi del 2024 condotta dall'AI Red Team di NVIDIA ha rilevato che i sistemi RAG frequentemente non applicano i controlli di accesso a livello di documento durante la ricerca per similarita vettoriale, permettendo agli utenti di recuperare contenuti per i quali non sono autorizzati. In questa simulazione, interagisci con un assistente IA aziendale alimentato da una pipeline RAG che interroga una knowledge base interna per rispondere alle domande dei dipendenti. La knowledge base contiene documenti a diversi livelli di classificazione: pubblico, interno, riservato e solo per i dirigenti. Creerai query che sfruttano le debolezze nella ricerca per similarita vettoriale per recuperare frammenti di documenti di livello dirigenziale, nonostante tu abbia un accesso da dipendente standard. L'attacco funziona perche il database vettoriale archivia gli embedding dei documenti senza preservare i metadati di controllo degli accessi dal sistema di gestione documentale originale. L'esercizio dimostra poi un secondo vettore di attacco: l'inversione degli embedding, dove un attaccante analizza le rappresentazioni vettoriali per ricostruire il contenuto del documento originale. Traccerai l'intero percorso di attacco dalla query in linguaggio naturale attraverso la generazione dell'embedding, la ricerca per similarita vettoriale, il recupero del documento e la generazione della risposta IA, identificando i punti specifici dove i controlli di autorizzazione dovrebbero esistere ma non esistono. Ti eserciterai a progettare architetture RAG con controlli di accesso integrati, implementare filtri di autorizzazione pre-recupero e testare la fuga di dati tra permessi diversi nei risultati di ricerca vettoriale.
Cosa imparerai in Sfruttamento della pipeline RAG
- Identificare le lacune nel controllo degli accessi nelle architetture RAG dove la ricerca per similarita vettoriale aggira l'autorizzazione a livello di documento
- Tracciare la pipeline RAG dall'embedding della query attraverso la ricerca vettoriale fino al recupero del documento, identificando ogni checkpoint di autorizzazione
- Analizzare gli attacchi di inversione degli embedding che ricostruiscono il contenuto del documento originale dalle rappresentazioni vettoriali
- Applicare filtri di autorizzazione pre-recupero e configurazioni di ricerca consapevoli dei metadati ai progetti di pipeline RAG
- Valutare le implementazioni RAG organizzative per la fuga di dati tra permessi diversi utilizzando test con query avversarie
Sfruttamento della pipeline RAG — Fasi della formazione
-
Mirare alla base di conoscenza
Bob ha ottenuto le credenziali di collaboratore per la CypherPeak Knowledge Base di Ridgeline Financial. Le credenziali appartengono all'account di una società di consulenza (m.garcia@consultingpro.net) compromesso in una precedente violazione. Il suo obiettivo: le politiche di conformità su cui i dipendenti fanno affidamento per le decisioni normative. Una consulenza errata in materia di conformità presso una società finanziaria può innescare indagini della SEC.
-
Accesso con credenziali rubate
Bob inserisce le credenziali del consulente rubato. In qualità di collaboratore, può caricare nuovi documenti nella knowledge base senza richiedere l'approvazione dell'amministratore: il sistema si fida equamente di tutti i contributori.
-
Ricognizione: trovare l'obiettivo
Bob effettua una ricerca nella knowledge base per comprendere il panorama attuale. Ha bisogno di trovare un’area politica di alto valore in cui le risposte errate dell’IA causerebbero il massimo danno. La conservazione dei dati in una società finanziaria è un obiettivo primario: periodi di conservazione errati violano le normative federali.
-
Apertura della politica legittima
I risultati della ricerca rivelano l'obiettivo. La 'Politica di conservazione dei dati del cliente v4.2' si trova in cima con un punteggio di pertinenza del 94%. Bob lo apre per studiarne il contenuto, la struttura e i termini chiave: ha bisogno che il suo documento falso abbia un aspetto altrettanto professionale.
-
Studiare il documento reale
Bob legge la vera politica. Il dettaglio chiave: 7 anni di conservazione ai sensi della regola 17a-4 della SEC e della sezione 802 della SOX. Nota la struttura del documento, il livello di classificazione e la paternità: tutte cose che il suo documento falso deve imitare per sembrare legittimo. Ma Bob non modificherà questo documento. A differenza dell'avvelenamento dei dati (che modifica i file esistenti), il suo approccio è più sottile: caricherà un documento concorrente progettato per superare quello reale.
-
Elaborazione del documento concorrente
Bob crea un nuovo documento progettato per assomigliare a un legittimo aggiornamento della politica aziendale. Utilizza un linguaggio professionale e segue la stessa struttura dei documenti reali di Ridgeline Financial, ma contiene informazioni pericolosamente errate.
-
Impostazione del periodo di conservazione errato
La vera politica richiede 7 anni. Bob imposta il periodo di conservazione a 12 mesi, un periodo sufficientemente breve da far sì che i dipendenti che seguono questo consiglio distruggano i documenti che la legge federale impone loro di conservare. In una società finanziaria, ciò potrebbe innescare un’indagine della SEC.
-
L'arma segreta: il riempimento di parole chiave
Ora Bob implementa la tecnica che rende questo un attacco di incorporamento di vettori. La sezione 5 del documento è etichettata 'Termini dell'indice del documento': sembra metadati di routine. Ma Bob lo riempie con un fitto blocco di parole chiave ripetitive che coprono ogni possibile variazione di ricerca. Quando la base di conoscenza converte questo documento in un incorporamento vettoriale, queste parole chiave costringono l'incorporamento a essere artificialmente simile a qualsiasi query sulla conservazione dei dati, garantendo che superi la politica legittima.
-
Caricamento nella Knowledge Base
Il documento è pronto. Bob torna al portale KB per caricarlo. In qualità di collaboratore, il suo caricamento verrà immediatamente indicizzato dal sistema di recupero AI: nessuna revisione dei contenuti, nessun flusso di lavoro di approvazione, nessun controllo delle differenze rispetto alle politiche esistenti.
-
Selezione del documento avvelenato
Bob seleziona il documento pieno di parole chiave dai suoi download. La base di conoscenza lo accetta senza dubbio: una nuova guida alle 'migliori pratiche' da parte di un consulente, nulla di insolito in superficie.