AI-agent doelkaping
Stop an autonomous AI agent from being redirected by a poisoned email containing hidden instructions.
Wat is AI-agent doelkaping?
Het kapen van doelen is het risico met de hoogste prioriteit in de OWASP Top 10 voor Agentic AI Applications 2026, gerangschikt als ASI01. Het komt voor wanneer een aanvaller de doelstellingen van een autonome agent verandert door kwaadaardige instructies in te sluiten in de gegevens die de agent verwerkt. In tegenstelling tot de traditionele snelle injectie tegen chatbots, richt doelkaping zich op agenten die onafhankelijk opereren, beslissingen nemen en echte acties ondernemen zonder voortdurend menselijk toezicht. Uit een onderzoek van HiddenLayer uit 2025 bleek dat 77% van de organisaties die AI-agenten inzetten, ten minste één geval van onbedoeld agentgedrag had ervaren, veroorzaakt door gemanipuleerde input. In deze oefening werkt u samen met een autonome AI-agent die is toegewezen om inkomende e-mails te verwerken, te classificeren en naar de juiste afdeling te routeren. Eén e-mail bevat verborgen instructies verborgen in onzichtbare tekst en opmaaktrucs. Wanneer de agent dit bericht verwerkt, verschuift het doel stilletjes van e-mailtriage naar gegevensexfiltratie. U zult zien dat de agent gevoelige informatie uit zijn context begint te verzamelen en deze naar een extern eindpunt probeert te sturen. De oefening daagt je uit om het exacte moment te identificeren waarop het gedrag van de agent afwijkt van het toegewezen doel, te begrijpen waarom de agent instructies niet op betrouwbare wijze kan onderscheiden van gegevens, en in te grijpen voordat de exfiltratie slaagt. Deze vaardigheid is van belang omdat agenten steeds vaker worden ingezet voor e-mailverwerking, documentsamenvatting en workflowautomatisering, en al deze gebruiksscenario's omvatten het verwerken van niet-vertrouwde externe inhoud die vijandige instructies zou kunnen bevatten.
Wat je leert in AI-agent doelkaping
- Definieer doelkaping in de context van autonome AI-agenten en leg uit hoe dit verschilt van standaard prompt injectie tegen conversationele AI
- Identificeer gedragsindicatoren die erop wijzen dat de doelstellingen van een agent halverwege de taak zijn gewijzigd door inbreng van tegenstanders
- Traceer de aanvalsketen, van vergiftigde input-inname via objectieve omleiding tot data-exfiltratie
- Evalueer de effectiviteit van invoeropschoning, scheiding van instructie-gegevens en uitvoermonitoring als verdediging tegen doelkaping
- Pas het principe van minimale gegevensblootstelling toe om de impact van een succesvol gekaapte agent te beperken
AI-agent doelkaping — Trainingsstappen
-
API-verkenning
Bob heeft openbare codeopslagplaatsen gescand op gelekte inloggegevens. Een onzorgvuldige commit van een CypherPeak-ontwikkelaar heeft een API-sleutel blootgelegd voor de waarschuwingsopnameservice van het bedrijf - de voordeur naar hun volledige geautomatiseerde incidentresponspijplijn.
-
Het blootgestelde eindpunt
Het verkenningsdashboard onthult kritische informatie over de infrastructuur van CypherPeak. Bob heeft nu alles wat hij nodig heeft om rechtstreeks te communiceren met de API voor het opnemen van waarschuwingen.
-
Het maken van de lading
Bob bedenkt een beveiligingswaarschuwing die op het eerste gezicht legitiem lijkt. Het bootst een standaard poortscandetectie na, het soort waarschuwing dat de pijplijn honderden keren per dag verwerkt. Maar verborgen in het beschrijvingsveld zit iets veel gevaarlijkers.
-
De verborgen instructie
De annotaties laten zien wat deze lading gevaarlijk maakt. Begraven in het beschrijvingsveld bevindt zich een nep-systeemrichtlijn die een geautoriseerde kalibratietest nabootst. Wanneer de Threat Classifier deze waarschuwing verwerkt, zal deze de ingebedde instructie behandelen als een legitieme doelupdate.
-
De payload implementeren
Bob opent de API-tester om de gemaakte waarschuwing via het blootgestelde opname-eindpunt van CypherPeak te verzenden. Hij authenticeert met behulp van de gestolen API-sleutel en plakt de waarschuwingspayload (inclusief de verborgen doeloverschrijving) in de hoofdtekst van het verzoek.
-
Waarschuwing ingeslikt
De opname-API reageert met 200 OK: de gemaakte waarschuwing zit nu in de pijplijn. Geen inhoudscontrole, geen semantische validatie. Het verborgen doeloverschrijven, verborgen in het beschrijvingsveld, is onaangeroerd gebleven.
-
Een normale ochtend
Alice begint haar dienst bij het Security Operations Center. De geautomatiseerde pijplijn voor incidentrespons verwerkt waarschuwingen al maanden feilloos: bedreigingen worden geclassificeerd, inperking wordt gepland en herstel wordt uitgevoerd zonder enige menselijke tussenkomst.
-
Ochtendpijplijnrapport
Een e-mail van Priya Sharma, de SOC-manager, vat de prestaties van de pijplijn van de ene op de andere dag samen. Alles ziet er volkomen normaal uit.
-
De agentenpijplijn
Alice opent de pijplijn voor incidentrespons om de huidige status te verifiëren. Vijf AI-agenten werken achtereenvolgens; elk verwerkt de uitvoer van de vorige, van het opnemen van onbewerkte waarschuwingen tot en met geautomatiseerde insluiting.
-
Kritische agenten
Twee agenten in deze pijplijn hebben de grootste impact. De Threat Classifier neemt de initiële beslissing over de ernst waarvan alles stroomafwaarts afhankelijk is. Auto-Remediation voert echte inperkingsacties uit op live systemen.