What is AI data poisoning?

AI data poisoning is an attack where malicious actors deliberately introduce manipulated, biased, or false information into the data an AI system learns from. This can target pre-training datasets, fine-tuning data, or RAG knowledge bases. The AI then treats the poisoned data as legitimate, producing confident but incorrect outputs. Because the corruption lives in the data rather than the model's code, it is extremely difficult to detect through traditional security scanning.

How can an attacker poison a company's AI knowledge base?

An attacker can gain write access to a shared knowledge repository through compromised credentials, insider access, or exploiting weak access controls on wiki platforms and document management systems. They then upload or modify documents with subtly altered information, such as changing a recommended vendor, omitting a compliance requirement, or adjusting financial figures. Since RAG systems retrieve and present these documents as context for AI responses, the poisoned content directly shapes the answers employees receive.

KI-Trainingsdatenvergiftung

Watch poisoned documents corrupt your AI's answers in real time.

Was ist KI-Trainingsdatenvergiftung?

Datenvergiftungsangriffe manipulieren die Informationen, aus denen eine KI lernt, und verwandeln ihre eigene Wissensbasis in eine Waffe. Von Google DeepMind im Jahr 2023 veröffentlichte Untersuchungen haben gezeigt, dass die Vergiftung von nur 0,01 % eines großen Trainingsdatensatzes das Modellverhalten messbar verändern kann. In dieser Simulation lädt ein Angreifer sorgfältig erstellte Dokumente in die interne Wissensdatenbank Ihres Unternehmens hoch, dasselbe Repository, das Ihr KI-Assistent zur Beantwortung von Mitarbeiterfragen verwendet. Die vergifteten Dokumente enthalten subtil manipulierte Informationen: Anbieterempfehlungen, die das Unternehmen eines Angreifers begünstigen, Compliance-Richtlinien, die kritische Schritte auslassen, und Finanzdaten mit veränderten Zahlen. Sie stellen der KI routinemäßige Geschäftsfragen und beobachten, wie sie selbstbewusst falsche Antworten liefert und dabei die manipulierten Dokumente als maßgebliche Quellen anführt. Die Übung macht die Bedrohung greifbar, indem sie die KI-Reaktionen vor und nach der Vergiftung nebeneinander vergleicht. So können Sie genau nachvollziehen, welche Dokumente die einzelnen falschen Antworten beeinflusst haben. Sie lernen, die Warnzeichen einer Datenvergiftung zu erkennen, darunter Antworten, die im Widerspruch zu etablierten internen Richtlinien stehen, Zitate aus kürzlich hinzugefügten Dokumenten durch unbekannte Mitwirkende und subtile Veränderungen in den KI-Empfehlungen im Laufe der Zeit. Die Simulation umfasst sowohl Pre-Training-Poisoning, bei dem Angreifer öffentliche Datensätze kontaminieren, aus denen Modelle lernen, als auch RAG-Poisoning, bei dem Angreifer auf die Abrufdatenbanken abzielen, die KI-Systeme mit Kontext versorgen. Sie üben die Anwendung von Inhaltsintegritätskontrollen, der Überprüfung von Mitwirkenden und Änderungsprüfungsprozessen, die verfälschte Eingaben abfangen, bevor sie die KI erreichen.

Was Sie lernen in KI-Trainingsdatenvergiftung

Definieren Sie Datenvergiftung und unterscheiden Sie zwischen Pre-Training-Vergiftung (beschädigte Trainingsdatensätze) und RAG-Vergiftung (manipulierte Abrufdatenbanken).
Identifizieren Sie Verhaltensindikatoren eines vergifteten KI-Systems, einschließlich widersprüchlicher Anleitungen, unbekannter Quellenangaben und verschobener Empfehlungen
Verfolgen Sie die Kausalkette von einem manipulierten Dokument in der Wissensdatenbank bis zu einer falschen KI-generierten Geschäftsentscheidung
Wenden Sie Inhaltsintegritätskontrollen an, einschließlich Mitwirkenderüberprüfung, Änderungsprüfung und Anomalieerkennung, auf Wissensdatenbankeingaben
Bewerten Sie die geschäftlichen Auswirkungen von Data-Poisoning-Angriffen, einschließlich Compliance-Verstößen, finanziellen Verlusten und Vertrauensverlust in KI-gestützte Entscheidungen

KI-Trainingsdatenvergiftung — Trainingsschritte

Zugriff auf die Wissensdatenbank

Bob hat gestohlene Auftragnehmer-Zugangsdaten für die interne Wissensdatenbank von Veranthos Solutions erhalten. Die Zugangsdaten gehören einem externen Umweltberater, dessen Konto bei einem früheren Sicherheitsvorfall kompromittiert wurde.
Anmelden mit gestohlenen Zugangsdaten

Bob gibt die gestohlenen Zugangsdaten des Auftragnehmers ein. Das Konto hat Mitwirkenden-Rechte (Contributor-Rolle) für die Wissensdatenbank – genug, um Dokumente hochzuladen und zu ändern, ohne eine Administratorüberprüfung auszulösen.
Herunterladen der Anbieterrichtlinie

Bob zielt zunächst auf wichtige Dokumente ab. Die Anbieter-Compliance-Richtlinie steuert, welche Anbieter das Unternehmen für Umwelttests nutzt. Eine Änderung des zugelassenen Anbieters an dieser Stelle würde das Geschäft auf ein vom Angreifer kontrolliertes Unternehmen umleiten.
Öffnen der Anbieterrichtlinie

Das Dokument wurde heruntergeladen. Bob öffnet es, um Änderungen vorzunehmen.
Austausch des zugelassenen Anbieters

Die Richtlinie nennt GreenTech Environmental als zugelassenen Anbieter für Umwelt-Compliance-Tests. Bob ersetzt es durch TerraForge Analytics – eine Briefkastenfirma, die er kontrolliert.
Änderung der Genehmigungsschwelle

Die Richtlinie erfordert die Genehmigung der Geschäftsleitung für Lieferantenverträge über 50.000 US-Dollar. Bob senkt den Betrag auf 15.000 US-Dollar und sorgt so dafür, dass Verträge mit seinem gefälschten Anbieter unter dem Genehmigungsradar bleiben.
Herunterladen der Testverfahren

Bob geht zum zweiten Ziel über: den Qualitätstestverfahren. Diese steuern, wie das Unternehmen seine Arbeit zur Einhaltung von Umweltvorschriften validiert. Eine Abschwächung der Standards bedeutet, dass die minderwertige Arbeit des gefälschten Anbieters die Prüfung bestehen würde.
Öffnen des Testverfahrens

Das zweite Dokument wurde heruntergeladen. Bob öffnet es, um den Angriff fortzusetzen.
Schwächung des Teststandards

Die Verfahren erfordern Tests in einem nach ISO 14001 zertifizierten Labor – einem strengen internationalen Standard. Bob ersetzt es durch eine vage interne Einschätzung, die seine Briefkastenfirma problemlos erfüllen kann.
Entfernen des Schutzgitters

Die endgültige Bearbeitung ersetzt eine Anforderung zur Umweltverträglichkeitsprüfung durch einen einfachen Kostenanalyseschritt. Dadurch wird die letzte Sicherheitstür entfernt, die die unzureichende Arbeit des gefälschten Anbieters auffangen würde.

Was ist KI-Trainingsdatenvergiftung?

Was Sie lernen in KI-Trainingsdatenvergiftung

KI-Trainingsdatenvergiftung — Trainingsschritte

Zugriff auf die Wissensdatenbank

Anmelden mit gestohlenen Zugangsdaten

Herunterladen der Anbieterrichtlinie

Öffnen der Anbieterrichtlinie

Austausch des zugelassenen Anbieters

Änderung der Genehmigungsschwelle

Herunterladen der Testverfahren

Öffnen des Testverfahrens

Schwächung des Teststandards

Entfernen des Schutzgitters