What is AI data poisoning?

AI data poisoning is an attack where malicious actors deliberately introduce manipulated, biased, or false information into the data an AI system learns from. This can target pre-training datasets, fine-tuning data, or RAG knowledge bases. The AI then treats the poisoned data as legitimate, producing confident but incorrect outputs. Because the corruption lives in the data rather than the model's code, it is extremely difficult to detect through traditional security scanning.

How can an attacker poison a company's AI knowledge base?

An attacker can gain write access to a shared knowledge repository through compromised credentials, insider access, or exploiting weak access controls on wiki platforms and document management systems. They then upload or modify documents with subtly altered information, such as changing a recommended vendor, omitting a compliance requirement, or adjusting financial figures. Since RAG systems retrieve and present these documents as context for AI responses, the poisoned content directly shapes the answers employees receive.

Vergiftiging van AI-trainingsgegevens

Watch poisoned documents corrupt your AI's answers in real time.

Wat is Vergiftiging van AI-trainingsgegevens?

Datavergiftigingsaanvallen manipuleren de informatie waar een AI van leert, waardoor de eigen kennisbank een wapen wordt. Onderzoek gepubliceerd door Google DeepMind in 2023 toonde aan dat het vergiftigen van slechts 0,01% van een grote trainingsdataset het modelgedrag meetbaar kon veranderen. In deze simulatie uploadt een aanvaller zorgvuldig samengestelde documenten naar de interne kennisbank van je bedrijf, dezelfde repository die je AI-assistent gebruikt om vragen van medewerkers te beantwoorden. De vergiftigde documenten bevatten subtiel gemanipuleerde informatie: leveranciersaanbevelingen die de voorkeur geven aan het bedrijf van de aanvaller, compliance-richtlijnen die kritieke stappen weglaten, en financiele gegevens met gewijzigde cijfers. Je stelt de AI routinematige zakelijke vragen en kijkt toe hoe deze vol vertrouwen foute antwoorden geeft, onder verwijzing naar de vergiftigde documenten als gezaghebbende bronnen. De oefening maakt de dreiging tastbaar door vergelijkingen naast elkaar te tonen van AI-antwoorden voor en na de vergiftiging, zodat je precies kunt traceren welke documenten elk onjuist antwoord hebben beinvloed. Je leert de waarschuwingssignalen van datavergiftiging herkennen, waaronder antwoorden die in strijd zijn met vastgesteld intern beleid, verwijzingen naar recent toegevoegde documenten door onbekende bijdragers, en subtiele verschuivingen in AI-aanbevelingen in de loop der tijd. De simulatie behandelt zowel pre-training vergiftiging, waarbij aanvallers openbare datasets besmetten waarvan modellen leren, als RAG-vergiftiging, waarbij aanvallers de ophaaldatabases aanvallen die context aan AI-systemen leveren. Je oefent met het toepassen van controles voor inhoudsintegriteit, bijdragerverificatie en wijzigingsaudit die vergiftigde invoer onderscheppen voordat deze de AI bereiken.

Wat je leert in Vergiftiging van AI-trainingsgegevens

Definieer datavergiftiging en maak onderscheid tussen pre-training vergiftiging (gecorrumpeerde trainingsdatasets) en RAG-vergiftiging (gemanipuleerde ophaaldatabases)
Herken gedragsindicatoren van een vergiftigd AI-systeem, waaronder tegenstrijdige richtlijnen, onbekende bronvermeldingen en verschoven aanbevelingen
Traceer de causale keten van een vergiftigd document in de kennisbank tot een onjuiste AI-gegenereerde zakelijke beslissing
Pas controles voor inhoudsintegriteit toe, waaronder bijdragerverificatie, wijzigingsaudit en anomaliedetectie op invoer voor de kennisbank
Evalueer de zakelijke impact van datavergiftigingsaanvallen, waaronder compliancefouten, financiele verliezen en erosie van vertrouwen in AI-ondersteunde beslissingen

Vergiftiging van AI-trainingsgegevens — Trainingsstappen

Toegang tot de kennisbank

Bob heeft gestolen inloggegevens van aannemers verkregen voor de interne kennisbank van Veranthos Solutions. De inloggegevens behoren toe aan een externe milieuadviseur wiens account bij een eerdere inbreuk is gecompromitteerd.
Inloggen met gestolen inloggegevens

Bob voert de gestolen inloggegevens van de aannemer in. Het account heeft toegang op contribuantniveau tot de kennisbank – voldoende om documenten te uploaden en te wijzigen zonder een beheerdersbeoordeling te activeren.
Het leveranciersbeleid downloaden

Bob richt zich eerst op documenten met een grote impact. Het Vendor Compliance Policy bepaalt welke leveranciers het bedrijf gebruikt voor milieutests. Het wijzigen van de goedgekeurde leverancier hier zou de zaken doorverwijzen naar een door aanvallers gecontroleerd bedrijf.
Het leveranciersbeleid openen

Het document is gedownload. Bob opent het om wijzigingen aan te brengen.
De goedgekeurde leverancier omwisselen

Het beleid noemt GreenTech Environmental als de goedgekeurde leverancier voor het testen van de naleving van de milieuwetgeving. Bob vervangt het door TerraForge Analytics - een lege vennootschap die hij beheert.
De goedkeuringsdrempel wijzigen

Het beleid vereist goedkeuring van de uitvoerende macht voor leverancierscontracten van meer dan $ 50.000. Bob verlaagt dit tot $ 15.000, zodat contracten met zijn nepverkoper onder de goedkeuringsradar blijven.
De testprocedures downloaden

Bob gaat over naar het tweede doel: de kwaliteitstestprocedures. Deze bepalen hoe het bedrijf de naleving van de milieuwetgeving valideert. Het verzwakken van de normen betekent dat het ondermaatse werk van de nepleverancier de beoordeling zou doorstaan.
De testprocedures openen

Het tweede document is gedownload. Bob opent het om de aanval voort te zetten.
Het verzwakken van de teststandaard

De procedures vereisen testen in een ISO 14001-gecertificeerd laboratorium - een strenge internationale norm. Bob vervangt het door een vage interne beoordeling waaraan zijn lege vennootschap gemakkelijk kan voldoen.
Het veiligheidshek verwijderen

De laatste bewerking vervangt een vereiste voor een milieueffectrapportage door een eenvoudige stap voor kostenanalyse. Hiermee wordt het laatste veiligheidshek verwijderd dat het ontoereikende werk van de nepverkoper zou kunnen opvangen.

Wat is Vergiftiging van AI-trainingsgegevens?

Wat je leert in Vergiftiging van AI-trainingsgegevens

Vergiftiging van AI-trainingsgegevens — Trainingsstappen

Toegang tot de kennisbank

Inloggen met gestolen inloggegevens

Het leveranciersbeleid downloaden

Het leveranciersbeleid openen

De goedgekeurde leverancier omwisselen

De goedkeuringsdrempel wijzigen

De testprocedures downloaden

De testprocedures openen

Het verzwakken van de teststandaard

Het veiligheidshek verwijderen