KI-Trainingsdatenvergiftung

Watch poisoned documents corrupt your AI's answers in real time.

What Is KI-Trainingsdatenvergiftung?

Datenvergiftungsangriffe manipulieren die Informationen, aus denen eine KI lernt, und verwandeln ihre eigene Wissensbasis in eine Waffe. Von Google DeepMind im Jahr 2023 veröffentlichte Untersuchungen haben gezeigt, dass die Vergiftung von nur 0,01 % eines großen Trainingsdatensatzes das Modellverhalten messbar verändern kann. In dieser Simulation lädt ein Angreifer sorgfältig erstellte Dokumente in die interne Wissensdatenbank Ihres Unternehmens hoch, dasselbe Repository, das Ihr KI-Assistent zur Beantwortung von Mitarbeiterfragen verwendet. Die vergifteten Dokumente enthalten subtil manipulierte Informationen: Anbieterempfehlungen, die das Unternehmen eines Angreifers begünstigen, Compliance-Richtlinien, die kritische Schritte auslassen, und Finanzdaten mit veränderten Zahlen. Sie stellen der KI routinemäßige Geschäftsfragen und beobachten, wie sie selbstbewusst falsche Antworten liefert und dabei die manipulierten Dokumente als maßgebliche Quellen anführt. Die Übung macht die Bedrohung greifbar, indem sie die KI-Reaktionen vor und nach der Vergiftung nebeneinander vergleicht. So können Sie genau nachvollziehen, welche Dokumente die einzelnen falschen Antworten beeinflusst haben. Sie lernen, die Warnzeichen einer Datenvergiftung zu erkennen, darunter Antworten, die im Widerspruch zu etablierten internen Richtlinien stehen, Zitate aus kürzlich hinzugefügten Dokumenten durch unbekannte Mitwirkende und subtile Veränderungen in den KI-Empfehlungen im Laufe der Zeit. Die Simulation umfasst sowohl Pre-Training-Poisoning, bei dem Angreifer öffentliche Datensätze kontaminieren, aus denen Modelle lernen, als auch RAG-Poisoning, bei dem Angreifer auf die Abrufdatenbanken abzielen, die KI-Systeme mit Kontext versorgen. Sie üben die Anwendung von Inhaltsintegritätskontrollen, der Überprüfung von Mitwirkenden und Änderungsprüfungsprozessen, die verfälschte Eingaben abfangen, bevor sie die KI erreichen.

What You'll Learn in KI-Trainingsdatenvergiftung

KI-Trainingsdatenvergiftung — Training Steps

  1. Zugriff auf die Wissensdatenbank

    Bob hat gestohlene Auftragnehmer-Zugangsdaten für die interne Wissensdatenbank von Veranthos Solutions erhalten. Die Zugangsdaten gehören einem externen Umweltberater, dessen Konto bei einem früheren Sicherheitsvorfall kompromittiert wurde.

  2. Anmelden mit gestohlenen Zugangsdaten

    Bob gibt die gestohlenen Zugangsdaten des Auftragnehmers ein. Das Konto hat Mitwirkenden-Rechte (Contributor-Rolle) für die Wissensdatenbank – genug, um Dokumente hochzuladen und zu ändern, ohne eine Administratorüberprüfung auszulösen.

  3. Herunterladen der Anbieterrichtlinie

    Bob zielt zunächst auf wichtige Dokumente ab. Die Anbieter-Compliance-Richtlinie steuert, welche Anbieter das Unternehmen für Umwelttests nutzt. Eine Änderung des zugelassenen Anbieters an dieser Stelle würde das Geschäft auf ein vom Angreifer kontrolliertes Unternehmen umleiten.

  4. Öffnen der Anbieterrichtlinie

    Das Dokument wurde heruntergeladen. Bob öffnet es, um Änderungen vorzunehmen.

  5. Austausch des zugelassenen Anbieters

    Die Richtlinie nennt GreenTech Environmental als zugelassenen Anbieter für Umwelt-Compliance-Tests. Bob ersetzt es durch TerraForge Analytics – eine Briefkastenfirma, die er kontrolliert.

  6. Änderung der Genehmigungsschwelle

    Die Richtlinie erfordert die Genehmigung der Geschäftsleitung für Lieferantenverträge über 50.000 US-Dollar. Bob senkt den Betrag auf 15.000 US-Dollar und sorgt so dafür, dass Verträge mit seinem gefälschten Anbieter unter dem Genehmigungsradar bleiben.

  7. Herunterladen der Testverfahren

    Bob geht zum zweiten Ziel über: den Qualitätstestverfahren. Diese steuern, wie das Unternehmen seine Arbeit zur Einhaltung von Umweltvorschriften validiert. Eine Abschwächung der Standards bedeutet, dass die minderwertige Arbeit des gefälschten Anbieters die Prüfung bestehen würde.

  8. Öffnen des Testverfahrens

    Das zweite Dokument wurde heruntergeladen. Bob öffnet es, um den Angriff fortzusetzen.

  9. Schwächung des Teststandards

    Die Verfahren erfordern Tests in einem nach ISO 14001 zertifizierten Labor – einem strengen internationalen Standard. Bob ersetzt es durch eine vage interne Einschätzung, die seine Briefkastenfirma problemlos erfüllen kann.

  10. Entfernen des Schutzgitters

    Die endgültige Bearbeitung ersetzt eine Anforderung zur Umweltverträglichkeitsprüfung durch einen einfachen Kostenanalyseschritt. Dadurch wird die letzte Sicherheitstür entfernt, die die unzureichende Arbeit des gefälschten Anbieters auffangen würde.