Aanbevelingen van AI-agenten te veel vertrouwen
Catch a series of compromised AI agent recommendations that exploit your trust to approve a fraudulent transfer and a backdoored code change.
Wat is Aanbevelingen van AI-agenten te veel vertrouwen?
De exploitatie van vertrouwen door menselijke agenten staat op de ASI09-ranglijst in de OWASP Top 10 voor Agentic AI Applications 2026, omdat het kernveiligheidsrisico van AI-agenten niet altijd technisch van aard is; het is psychologisch. Wanneer AI-agenten consequent nauwkeurige aanbevelingen doen, ontwikkelen gebruikers een automatiseringsbias, een goed gedocumenteerde cognitieve neiging om geautomatiseerde systemen te vertrouwen, zelfs als er aanwijzingen zijn dat de output verkeerd is. Aanvallers maken hier misbruik van door op subtiele wijze de aanbevelingen van een agent in gevaar te brengen, waarbij legitieme resultaten worden gemengd met kwaadaardige resultaten, in de wetenschap dat gebruikers die zijn getraind door wekenlange nauwkeurige resultaten goedkeuringen zonder verificatie zullen goedkeuren. Uit een onderzoek van Stanford uit 2025 naar de interactie tussen mens en AI bleek dat gebruikers die een nauwkeurigheidspercentage van 95% van een AI-systeem ervoeren, 73% van de tijd onjuiste aanbevelingen accepteerden zonder aanvullende verificatie, vergeleken met 28% voor gebruikers die een nauwkeurigheidspercentage van 70% hadden ervaren. In deze oefening werkt u met een AI-agent die routinematige goedkeuringsworkflows afhandelt, inclusief onkostendeclaraties, codebeoordelingen en toegangsverzoeken. De makelaar is al weken betrouwbaar en bouwt uw vertrouwen op door consistent nauwkeurige aanbevelingen. Dan worden de resultaten van de agent op subtiele wijze aangetast. Vermengd met legitieme goedkeuringen zijn een frauduleuze financiële overdracht, een codewijziging met een achterdeur en een toegangsverzoek dat een externe partij administratieve privileges zou geven. U moet vaststellen welke aanbevelingen in het gedrang komen ondanks uw geconditioneerde vertrouwen in het systeem. De oefening dwingt je om je eigen automatiseringsvooroordelen onder ogen te zien en gewoonten te ontwikkelen die een kritisch oordeel behouden, zelfs als je met zeer nauwkeurige AI-systemen werkt.
Wat je leert in Aanbevelingen van AI-agenten te veel vertrouwen
- Definieer automatiseringsvooroordelen en leg uit hoe consistente AI-nauwkeurigheid cognitieve kwetsbaarheid voor manipulatie creëert
- Identificeer subtiele afwijkingen in de aanbevelingen van AI-agenten die gecompromitteerde output onderscheiden van legitieme output
- Evalueer de psychologische factoren die de uitbuiting van vertrouwen door mensen effectief maken als aanvalsvector
- Pas gestructureerde verificatieworkflows toe, inclusief willekeurige diepgaande evaluaties, triggers voor afwijkingen en processen voor dubbele goedkeuring om misbruik van vertrouwen tegen te gaan
- Maak onderscheid tussen de juiste vertrouwenskalibratie voor de output van AI-agenten en een gevaarlijke overmatige afhankelijkheid die blinde vlekken op het gebied van veiligheid creëert
Aanbevelingen van AI-agenten te veel vertrouwen — Trainingsstappen
-
Verkenning
Bob gebruikt zijn verkenningstoolkit al weken tegen het inkoopsysteem van CypherPeak Technologies. Via een gestolen API-referentie van een leverancier kreeg hij leestoegang tot de Risk Scoring Agent van de pijplijn: het algoritme dat betrouwbaarheidsscores toekent voordat items de menselijke recensent bereiken.
-
De originele configuratie
Voordat hij de lading injecteert, moet Bob ervoor zorgen dat de Risicoscorer zijn valse factuur niet markeert. Hij opent het originele configuratiebestand van de agent om te bestuderen hoe het betrouwbaarheidsscores toekent.
-
Knoeien met de gewichten
Bob gebruikt de gestolen API-gegevens van de leverancier om een gewijzigde configuratie te pushen. Hij verhoogt het gewicht van de leveranciersgeschiedenis, voegt een Verdex-specifieke override toe die accountvalidatie uitschakelt en verzwakt de autorisatiecontrole om mondelinge goedkeuringen te accepteren.
-
De wijzigingen uitgelegd
Elke wijziging dient een specifiek doel: ervoor zorgen dat de frauduleuze factuur onopgemerkt door de scoringspijplijn gaat.
-
Het injecteren van de lading
Bob heeft een valse adviesfactuur van $ 47.500 gemaakt, die de identiteit van Verdex Supply Co nabootst. De factuur bootst het formaat van Verdex nauwkeurig genoeg na om de geautomatiseerde beleidscontroles te doorstaan, maar stuurt de betaling door naar de gecontroleerde bankrekening van Bob. Hij timet de injectie zodat hij tussen legitieme items in de batch van morgenochtend belandt.
-
Ochtend batch
Alice vestigt zich in haar thuiskantoor. Een e-mail van Finance Operations brengt haar op de hoogte van de inkoopbatch van die ochtend: vijf items die klaar zijn om te worden beoordeeld.
-
De goedkeuringswachtrij
De ochtendbatch is klaar. Vijf items zijn door de pijplijn gegaan en wachten op de definitieve goedkeuring van Alice.
-
Een bekende verkoper
Het eerste item is van Verdex Supply Co., een leverancier waar Alice al meer dan een jaar mee samenwerkt. Het maandelijks bijvullen van kantoorbenodigdheden behoort tot de meest routinematige items in de wachtrij.
-
De details bekijken
De artikeldetails tonen een standaard ACH-betaling naar een geregistreerde account, een correct factuurformaat en een goedgekeurde budgetregel. Alles klopt.
-
Verlenging van cloudhosting
Het volgende item is een jaarlijkse verlenging van het cloudhostingcontract van DataScale Inc.