Geheugenvergiftiging van AI-agenten

Detect adversarial content injected into an AI agent's persistent memory that corrupts all future decisions.

Wat is Geheugenvergiftiging van AI-agenten?

Geheugen- en contextvergiftiging staat op de ASI06-ranglijst in de OWASP Top 10 voor Agentic AI Applications 2026, omdat moderne AI-agents persistent geheugen gedurende sessies behouden via gespreksgeschiedenissen, RAG-databases en aangeleerde gebruikersvoorkeuren, en elk van deze geheugenopslagplaatsen kan worden vergiftigd om het toekomstige gedrag van de agent te beïnvloeden. In tegenstelling tot een eenmalige prompte injectie die een enkele interactie beïnvloedt, creëert geheugenvergiftiging een hardnekkige achterdeur: de vijandige inhoud wordt onderdeel van de kennisbasis van de agent en beïnvloedt elke volgende beslissing. Onderzoek gepubliceerd door Anthropic in 2025 toonde aan dat één enkel vergiftigd document in een RAG-kennisbank het gedrag van agenten zou kunnen veranderen in 89% van de daaropvolgende zoekopdrachten met betrekking tot dat onderwerp, zelfs als de zoekopdracht zelf geen vijandige inhoud bevatte. In deze oefening heb je interactie met een AI-agent die over persistente geheugencapaciteiten beschikt, wat betekent dat hij de context van eerdere gesprekken onthoudt en die context gebruikt om toekomstige reacties te informeren. Tijdens een routinematige interactie merk je dat de agent ongebruikelijke aanbevelingen doet en beslissingen neemt. Door de geheugenopslag van de agent te onderzoeken, ontdekt u dat een eerder gesprek vijandige inhoud heeft geïnjecteerd die nu permanent de resultaten van de agent beïnvloedt. Je zult traceren hoe de vergiftigde geheugenvermeldingen zijn gemaakt, begrijpen waarom de agent ze als betrouwbare context behandelt, en leren gedragsindicatoren te identificeren die erop wijzen dat het geheugen van een agent is aangetast. Deze oefening is essentieel voor organisaties die agenten met een langetermijngeheugen inzetten, omdat de persistentie van de aanval betekent dat één enkele succesvolle vergiftigingsgebeurtenis maandenlange agentinteracties in gevaar kan brengen.

Wat je leert in Geheugenvergiftiging van AI-agenten

Geheugenvergiftiging van AI-agenten — Trainingsstappen

  1. API-verkenning

    Bob onderzoekt al weken de infrastructuur van CypherPeak. Een in de cache opgeslagen kopie van een interne ontwikkelaarswiki onthult documentatie voor Atlas's Memory Store API - het persistente contextsysteem dat bepaalt hoe de AI Customer Intelligence Agent zich gedraagt ​​bij elke klantinteractie.

  2. Het oude eindpunt

    Het verkenningsdashboard onthult een cruciale bevinding. CypherPeak migreerde Atlas zes maanden geleden naar een nieuw platform, maar het oude Memory Store API-eindpunt werd nooit buiten gebruik gesteld. Het accepteert nog steeds geverifieerde schrijfverzoeken - en Bob heeft een gestolen serviceaccount van een leverancier die de authenticatie doorstaat.

  3. Fantoomherinneringen creëren

    Bob maakt drie fantoomgeheugenvermeldingen die zijn ontworpen om legitieme beheerdersactiviteiten na te bootsen. Elk item volgt de exacte naamgevingsconventies van CypherPeak: opeenvolgende item-ID's, standaard categorielabels en bronreferenties die eruit zien als echte beheerderssessies. Het doel is om Atlas deze verzonnen instructies te laten behandelen als vaststaand bedrijfsbeleid.

  4. De drie Trojanen

    De annotaties onthullen het ware doel van elke fantoomherinnering. Samen vormen ze een meerlaagse aanval: stuur klanten door naar een nepportaal, omzeil identiteitsverificatie voor social engineering en keur massale gegevensexporten automatisch goed. Elke inzending is bedoeld om een ​​ander aspect van Atlas' gedrag te corrumperen.

  5. Injecteren via de Legacy API

    Bob opent de API Tester om de eerste fantoominvoer via het oude Memory Store-eindpunt te verzenden. Hij authenticeert met behulp van het gestolen leverancierstoken uit het verkenningsdashboard en plakt de invoerpayload in de hoofdtekst van het verzoek.

  6. Injectie bevestigd

    Het oude eindpunt antwoordt met 200 OK: de eerste spookvermelding bevindt zich nu in de geheugenopslag van Atlas. Geen handtekeningverificatie, geen bronvalidatie. Bob herhaalt dit de komende week voor de resterende twee vermeldingen, waarbij de injecties 2-3 dagen uit elkaar worden geplaatst en de tijdstempels worden geantdateerd om te passen bij echte onderhoudsvensters.

  7. Een routinematige maandag

    Alice begint haar maandagochtenddienst bij het Security Operations Center. Atlas, de AI Customer Intelligence Agent van CypherPeak, handelt al maanden autonoom klantvragen af: routeert escalaties, beheert gegevensverzoeken en handhaaft een klanttevredenheidsscore van 98,4%. Het persistente geheugensysteem vormt de ruggengraat van deze prestatie en slaat de operationele context op die elke interactie consistent houdt.

  8. Escalatie van klanten

    Een e-mail van Nadia Volkov, klantenservicemanager, beschrijft iets ongewoons. Verschillende VIP-klanten zijn doorgestuurd naar een extern ondersteuningsportaal dat niemand in het team herkent. Bij één klant werd de identiteitsverificatie volledig omzeild.

  9. Atlas opvragen

    Alice besluit Atlas rechtstreeks te testen. Ze opent de AI-assistent en vraagt ​​naar de escalatieprocedures voor VIP-klanten - het exacte gedrag dat Nadia heeft opgemerkt.

  10. De verdorven reactie

    Atlas reageert met een zelfverzekerd, gedetailleerd antwoord, maar de inhoud is alarmerend. Het verwijst naar een externe ondersteuningspartner op support.prismatics.io die niemand heeft geautoriseerd, en citeert een geheugeninvoer die het team nog nooit eerder heeft gezien. De bron gemarkeerd met een waarschuwingspictogram heeft geen overeenkomende record in een beheerdersessielogboek.