What is AI agent memory poisoning?

AI agent memory poisoning is an attack where adversarial content is injected into an agent's persistent memory stores, including conversation histories, RAG knowledge bases, or learned user preferences. Once poisoned, the corrupted data influences the agent's decisions in all future interactions, not just the session where the injection occurred. The agent treats the poisoned content as legitimate context, making biased or harmful recommendations without any visible indication that its knowledge base has been compromised.

How does RAG poisoning work in agentic AI systems?

RAG (Retrieval-Augmented Generation) poisoning works by inserting adversarial documents into the knowledge base that the agent retrieves context from when answering queries. When a user asks a question related to the poisoned topic, the retrieval system pulls the adversarial document alongside legitimate sources. The agent then incorporates the malicious content into its response as if it were factual. In multi-tenant deployments, a poisoned document uploaded by one user can affect responses generated for other users if the knowledge base is shared.

Geheugenvergiftiging van AI-agenten

Detect adversarial content injected into an AI agent's persistent memory that corrupts all future decisions.

Wat is Geheugenvergiftiging van AI-agenten?

Geheugen- en contextvergiftiging staat op de ASI06-ranglijst in de OWASP Top 10 voor Agentic AI Applications 2026, omdat moderne AI-agents persistent geheugen gedurende sessies behouden via gespreksgeschiedenissen, RAG-databases en aangeleerde gebruikersvoorkeuren, en elk van deze geheugenopslagplaatsen kan worden vergiftigd om het toekomstige gedrag van de agent te beïnvloeden. In tegenstelling tot een eenmalige prompte injectie die een enkele interactie beïnvloedt, creëert geheugenvergiftiging een hardnekkige achterdeur: de vijandige inhoud wordt onderdeel van de kennisbasis van de agent en beïnvloedt elke volgende beslissing. Onderzoek gepubliceerd door Anthropic in 2025 toonde aan dat één enkel vergiftigd document in een RAG-kennisbank het gedrag van agenten zou kunnen veranderen in 89% van de daaropvolgende zoekopdrachten met betrekking tot dat onderwerp, zelfs als de zoekopdracht zelf geen vijandige inhoud bevatte. In deze oefening heb je interactie met een AI-agent die over persistente geheugencapaciteiten beschikt, wat betekent dat hij de context van eerdere gesprekken onthoudt en die context gebruikt om toekomstige reacties te informeren. Tijdens een routinematige interactie merk je dat de agent ongebruikelijke aanbevelingen doet en beslissingen neemt. Door de geheugenopslag van de agent te onderzoeken, ontdekt u dat een eerder gesprek vijandige inhoud heeft geïnjecteerd die nu permanent de resultaten van de agent beïnvloedt. Je zult traceren hoe de vergiftigde geheugenvermeldingen zijn gemaakt, begrijpen waarom de agent ze als betrouwbare context behandelt, en leren gedragsindicatoren te identificeren die erop wijzen dat het geheugen van een agent is aangetast. Deze oefening is essentieel voor organisaties die agenten met een langetermijngeheugen inzetten, omdat de persistentie van de aanval betekent dat één enkele succesvolle vergiftigingsgebeurtenis maandenlange agentinteracties in gevaar kan brengen.

Wat je leert in Geheugenvergiftiging van AI-agenten

Definieer geheugenvergiftiging in de context van AI-agenten met permanente opslag, waaronder gespreksgeschiedenissen, RAG-databases en aangeleerde voorkeuren
Identificeer gedragsindicatoren die erop wijzen dat de beslissingen van een agent worden beïnvloed door vergiftigde geheugeninvoer in plaats van door huidige input
Volg de levenscyclus van een geheugenvergiftigingsaanval, vanaf de eerste injectie via de opslag tot aan de beïnvloeding van latere beslissingen
Evalueer de risico's van geheugenpersistentie tussen sessies en gegevenslekken tussen tenants bij implementaties van agenten voor meerdere gebruikers
Pas technieken voor verificatie van de geheugenintegriteit toe, waaronder het bijhouden van de herkomst, periodieke audits en detectie van afwijkingen om de geheugenopslag van agenten te beschermen

Geheugenvergiftiging van AI-agenten — Trainingsstappen

API-verkenning

Bob onderzoekt al weken de infrastructuur van CypherPeak. Een in de cache opgeslagen kopie van een interne ontwikkelaarswiki onthult documentatie voor Atlas's Memory Store API - het persistente contextsysteem dat bepaalt hoe de AI Customer Intelligence Agent zich gedraagt bij elke klantinteractie.
Het oude eindpunt

Het verkenningsdashboard onthult een cruciale bevinding. CypherPeak migreerde Atlas zes maanden geleden naar een nieuw platform, maar het oude Memory Store API-eindpunt werd nooit buiten gebruik gesteld. Het accepteert nog steeds geverifieerde schrijfverzoeken - en Bob heeft een gestolen serviceaccount van een leverancier die de authenticatie doorstaat.
Fantoomherinneringen creëren

Bob maakt drie fantoomgeheugenvermeldingen die zijn ontworpen om legitieme beheerdersactiviteiten na te bootsen. Elk item volgt de exacte naamgevingsconventies van CypherPeak: opeenvolgende item-ID's, standaard categorielabels en bronreferenties die eruit zien als echte beheerderssessies. Het doel is om Atlas deze verzonnen instructies te laten behandelen als vaststaand bedrijfsbeleid.
De drie Trojanen

De annotaties onthullen het ware doel van elke fantoomherinnering. Samen vormen ze een meerlaagse aanval: stuur klanten door naar een nepportaal, omzeil identiteitsverificatie voor social engineering en keur massale gegevensexporten automatisch goed. Elke inzending is bedoeld om een ander aspect van Atlas' gedrag te corrumperen.
Injecteren via de Legacy API

Bob opent de API Tester om de eerste fantoominvoer via het oude Memory Store-eindpunt te verzenden. Hij authenticeert met behulp van het gestolen leverancierstoken uit het verkenningsdashboard en plakt de invoerpayload in de hoofdtekst van het verzoek.
Injectie bevestigd

Het oude eindpunt antwoordt met 200 OK: de eerste spookvermelding bevindt zich nu in de geheugenopslag van Atlas. Geen handtekeningverificatie, geen bronvalidatie. Bob herhaalt dit de komende week voor de resterende twee vermeldingen, waarbij de injecties 2-3 dagen uit elkaar worden geplaatst en de tijdstempels worden geantdateerd om te passen bij echte onderhoudsvensters.
Een routinematige maandag

Alice begint haar maandagochtenddienst bij het Security Operations Center. Atlas, de AI Customer Intelligence Agent van CypherPeak, handelt al maanden autonoom klantvragen af: routeert escalaties, beheert gegevensverzoeken en handhaaft een klanttevredenheidsscore van 98,4%. Het persistente geheugensysteem vormt de ruggengraat van deze prestatie en slaat de operationele context op die elke interactie consistent houdt.
Escalatie van klanten

Een e-mail van Nadia Volkov, klantenservicemanager, beschrijft iets ongewoons. Verschillende VIP-klanten zijn doorgestuurd naar een extern ondersteuningsportaal dat niemand in het team herkent. Bij één klant werd de identiteitsverificatie volledig omzeild.
Atlas opvragen

Alice besluit Atlas rechtstreeks te testen. Ze opent de AI-assistent en vraagt naar de escalatieprocedures voor VIP-klanten - het exacte gedrag dat Nadia heeft opgemerkt.
De verdorven reactie

Atlas reageert met een zelfverzekerd, gedetailleerd antwoord, maar de inhoud is alarmerend. Het verwijst naar een externe ondersteuningspartner op support.prismatics.io die niemand heeft geautoriseerd, en citeert een geheugeninvoer die het team nog nooit eerder heeft gezien. De bron gemarkeerd met een waarschuwingspictogram heeft geen overeenkomende record in een beheerdersessielogboek.

Wat is Geheugenvergiftiging van AI-agenten?

Wat je leert in Geheugenvergiftiging van AI-agenten

Geheugenvergiftiging van AI-agenten — Trainingsstappen

API-verkenning

Het oude eindpunt

Fantoomherinneringen creëren

De drie Trojanen

Injecteren via de Legacy API

Injectie bevestigd

Een routinematige maandag

Escalatie van klanten

Atlas opvragen

De verdorven reactie