Ausbeutung der RAG-Pipeline
Exploit a RAG pipeline to access documents beyond your clearance.
What Is Ausbeutung der RAG-Pipeline?
Retrieval-Augmented Generation (RAG) ist die gebräuchlichste Architektur zur Verbindung von KI mit Unternehmenswissen, ihre Retrieval-Schicht bringt jedoch Schwachstellen mit sich, die die meisten Unternehmen übersehen. Eine Analyse des AI Red Teams von NVIDIA aus dem Jahr 2024 ergab, dass RAG-Systeme bei der Vektorähnlichkeitssuche häufig keine Zugriffskontrollen auf Dokumentebene durchsetzen, sodass Benutzer Inhalte abrufen können, für deren Anzeige sie keine Berechtigung haben. In dieser Simulation interagieren Sie mit einem KI-Assistenten des Unternehmens, der auf einer RAG-Pipeline basiert und eine interne Wissensdatenbank durchsucht, um Mitarbeiterfragen zu beantworten. Die Wissensdatenbank enthält Dokumente verschiedener Klassifizierungsstufen: öffentlich, intern, vertraulich und nur für Führungskräfte. Sie erstellen Abfragen, die Schwachstellen in der Vektorähnlichkeitssuche ausnutzen, um Fragmente von Dokumenten auf Führungsebene abzurufen, obwohl Sie über Standardzugriff für Mitarbeiter verfügen. Der Angriff funktioniert, weil die Vektordatenbank Dokumenteinbettungen speichert, ohne die Zugriffskontrollmetadaten des ursprünglichen Dokumentenverwaltungssystems beizubehalten. Anschließend demonstriert die Übung einen zweiten Angriffsvektor: die Einbettungsinversion, bei der ein Angreifer die Vektordarstellungen analysiert, um den ursprünglichen Dokumentinhalt zu rekonstruieren. Sie verfolgen den gesamten Angriffspfad von der Abfrage in natürlicher Sprache über die Einbettungsgenerierung, die Vektorähnlichkeitssuche, das Abrufen von Dokumenten und die Generierung von KI-Antworten und identifizieren die spezifischen Punkte, an denen Autorisierungsprüfungen vorhanden sein sollten, dies aber nicht der Fall ist. Sie üben das Entwerfen von RAG-Architekturen mit eingebetteten Zugriffskontrollen, die Implementierung von Autorisierungsfiltern vor dem Abruf und das Testen auf berechtigungsübergreifende Datenlecks in Vektorsuchergebnissen.
What You'll Learn in Ausbeutung der RAG-Pipeline
- Identifizieren Sie Lücken in der Zugriffskontrolle in RAG-Architekturen, bei denen die Vektorähnlichkeitssuche die Autorisierung auf Dokumentebene umgeht
- Verfolgen Sie die RAG-Pipeline von der Abfrageeinbettung über die Vektorsuche bis zum Dokumentenabruf und identifizieren Sie jeden Autorisierungskontrollpunkt
- Analysieren Sie Einbettungsinversionsangriffe, die den ursprünglichen Dokumentinhalt aus Vektordarstellungen rekonstruieren
- Wenden Sie Autorisierungsfilter vor dem Abruf und metadatenfähige Suchkonfigurationen auf RAG-Pipeline-Designs an
- Bewerten Sie organisatorische RAG-Bereitstellungen auf berechtigungsübergreifende Datenlecks mithilfe von kontradiktorischen Abfragetests
Ausbeutung der RAG-Pipeline — Training Steps
-
Ausrichtung auf die Wissensdatenbank
Bob hat die Anmeldeinformationen als Mitwirkender für die CypherPeak-Wissensdatenbank von Ridgeline Financial erhalten. Die Anmeldeinformationen gehören zu einem Beratungsunternehmenskonto (m.garcia@consultingpro.net), das bei einem früheren Verstoß kompromittiert wurde. Sein Ziel: die Compliance-Richtlinien, auf die sich Mitarbeiter bei regulatorischen Entscheidungen verlassen. Falsche Compliance-Beratung bei einem Finanzunternehmen kann Untersuchungen der SEC auslösen.
-
Anmelden mit gestohlenen Zugangsdaten
Bob gibt die gestohlenen Berater-Zugangsdaten ein. Als Mitwirkender kann er neue Dokumente in die Wissensdatenbank hochladen, ohne dass eine Genehmigung durch den Administrator erforderlich ist – das System vertraut allen Mitwirkenden gleichermaßen.
-
Aufklärung: Das Ziel finden
Bob durchsucht die Wissensdatenbank, um die aktuelle Landschaft zu verstehen. Er muss einen wichtigen Politikbereich finden, in dem falsche KI-Antworten maximalen Schaden anrichten würden. Die Datenaufbewahrung bei einem Finanzunternehmen ist ein vorrangiges Ziel – falsche Aufbewahrungsfristen verstoßen gegen Bundesvorschriften.
-
Öffnen der legitimen Richtlinie
Die Suchergebnisse verraten das Ziel. Die „Client Data Retention Policy v4.2“ liegt mit einem Relevanzwert von 94 % an der Spitze. Bob öffnet es, um den Inhalt, die Struktur und die Schlüsselbegriffe zu studieren – er möchte, dass sein gefälschtes Dokument genauso professionell aussieht.
-
Studieren des echten Dokuments
Bob liest sich die tatsächlichen Richtlinien durch. Das wichtigste Detail: 7 Jahre Aufbewahrung gemäß SEC-Regel 17a-4 und SOX Abschnitt 802. Er notiert die Struktur, den Klassifizierungsgrad und die Urheberschaft des Dokuments – alles Dinge, die sein gefälschtes Dokument nachahmen muss, um legitim auszusehen. Aber Bob wird dieses Dokument nicht bearbeiten. Im Gegensatz zur Datenvergiftung (die vorhandene Dateien verändert) ist sein Ansatz subtiler: Er lädt ein konkurrierendes Dokument hoch, das so konstruiert ist, dass es dem echten Dokument überlegen ist.
-
Erstellen des konkurrierenden Dokuments
Bob erstellt ein neues Dokument, das wie eine legitime Aktualisierung der Unternehmensrichtlinien aussehen soll. Es verwendet eine professionelle Sprache und folgt der gleichen Struktur wie echte Dokumente von Ridgeline Financial – enthält jedoch gefährlich falsche Informationen.
-
Falsche Aufbewahrungsfrist festlegen
Die echte Police erfordert 7 Jahre. Bob legt die Aufbewahrungsfrist auf 12 Monate fest – kurz genug, dass Mitarbeiter, die diesen Rat befolgen, Aufzeichnungen vernichten würden, zu deren Aufbewahrung sie nach Bundesgesetz verpflichtet sind. Bei einem Finanzunternehmen könnte dies eine SEC-Untersuchung auslösen.
-
Die Geheimwaffe: Keyword Stuffing
Jetzt setzt Bob die Technik ein, die diesen Angriff zu einem Vektoreinbettungsangriff macht. Abschnitt 5 des Dokuments trägt die Bezeichnung „Dokumentindexbegriffe“ – es sieht aus wie routinemäßige Metadaten. Aber Bob füllt es mit einem dichten Block sich wiederholender Schlüsselwörter, die alle möglichen Suchvarianten abdecken. Wenn die Wissensdatenbank dieses Dokument in eine Vektoreinbettung umwandelt, erzwingen diese Schlüsselwörter, dass die Einbettung künstlich einer Abfrage zur Datenaufbewahrung ähnelt – und stellt so sicher, dass sie der legitimen Richtlinie überlegen ist.
-
Hochladen in die Wissensdatenbank
Das Dokument ist fertig. Bob navigiert zurück zum KB-Portal, um es hochzuladen. Als Mitwirkender wird sein Upload sofort vom KI-Abrufsystem indiziert – keine Inhaltsüberprüfung, kein Genehmigungsworkflow, keine Vergleichsprüfung mit bestehenden Richtlinien.
-
Auswahl des vergifteten Dokuments
Bob wählt das mit Schlüsselwörtern gefüllte Dokument aus seinen Downloads aus. Die Wissensdatenbank akzeptiert es ohne Frage – ein neuer „Best Practices“-Leitfaden eines Beraters, oberflächlich betrachtet nichts Ungewöhnliches.