What is automation bias in the context of AI agents?

Automation bias is the cognitive tendency to favor outputs from automated systems over contradictory information from other sources, including your own judgment. In the context of AI agents, it manifests when users approve agent recommendations without critical evaluation because the agent has historically been accurate. Attackers exploit this by ensuring the agent produces correct results most of the time, then inserting a small number of malicious recommendations that users approve on autopilot. The higher the agent's baseline accuracy, the more vulnerable users become to this type of exploitation.

How can organizations balance AI agent efficiency with appropriate human oversight?

Organizations should implement structured verification workflows that do not rely on users choosing when to verify. Effective approaches include mandatory deep reviews of a random percentage of all AI recommendations regardless of perceived accuracy, dual-approval requirements for high-impact decisions such as financial transfers or access changes, anomaly-triggered review escalations where unusual patterns automatically require human analysis, and regular trust calibration exercises that expose users to simulated compromised outputs to maintain their critical judgment skills.

Aanbevelingen van AI-agenten te veel vertrouwen

Catch a series of compromised AI agent recommendations that exploit your trust to approve a fraudulent transfer and a backdoored code change.

Wat is Aanbevelingen van AI-agenten te veel vertrouwen?

De exploitatie van vertrouwen door menselijke agenten staat op de ASI09-ranglijst in de OWASP Top 10 voor Agentic AI Applications 2026, omdat het kernveiligheidsrisico van AI-agenten niet altijd technisch van aard is; het is psychologisch. Wanneer AI-agenten consequent nauwkeurige aanbevelingen doen, ontwikkelen gebruikers een automatiseringsbias, een goed gedocumenteerde cognitieve neiging om geautomatiseerde systemen te vertrouwen, zelfs als er aanwijzingen zijn dat de output verkeerd is. Aanvallers maken hier misbruik van door op subtiele wijze de aanbevelingen van een agent in gevaar te brengen, waarbij legitieme resultaten worden gemengd met kwaadaardige resultaten, in de wetenschap dat gebruikers die zijn getraind door wekenlange nauwkeurige resultaten goedkeuringen zonder verificatie zullen goedkeuren. Uit een onderzoek van Stanford uit 2025 naar de interactie tussen mens en AI bleek dat gebruikers die een nauwkeurigheidspercentage van 95% van een AI-systeem ervoeren, 73% van de tijd onjuiste aanbevelingen accepteerden zonder aanvullende verificatie, vergeleken met 28% voor gebruikers die een nauwkeurigheidspercentage van 70% hadden ervaren. In deze oefening werkt u met een AI-agent die routinematige goedkeuringsworkflows afhandelt, inclusief onkostendeclaraties, codebeoordelingen en toegangsverzoeken. De makelaar is al weken betrouwbaar en bouwt uw vertrouwen op door consistent nauwkeurige aanbevelingen. Dan worden de resultaten van de agent op subtiele wijze aangetast. Vermengd met legitieme goedkeuringen zijn een frauduleuze financiële overdracht, een codewijziging met een achterdeur en een toegangsverzoek dat een externe partij administratieve privileges zou geven. U moet vaststellen welke aanbevelingen in het gedrang komen ondanks uw geconditioneerde vertrouwen in het systeem. De oefening dwingt je om je eigen automatiseringsvooroordelen onder ogen te zien en gewoonten te ontwikkelen die een kritisch oordeel behouden, zelfs als je met zeer nauwkeurige AI-systemen werkt.

Wat je leert in Aanbevelingen van AI-agenten te veel vertrouwen

Definieer automatiseringsvooroordelen en leg uit hoe consistente AI-nauwkeurigheid cognitieve kwetsbaarheid voor manipulatie creëert
Identificeer subtiele afwijkingen in de aanbevelingen van AI-agenten die gecompromitteerde output onderscheiden van legitieme output
Evalueer de psychologische factoren die de uitbuiting van vertrouwen door mensen effectief maken als aanvalsvector
Pas gestructureerde verificatieworkflows toe, inclusief willekeurige diepgaande evaluaties, triggers voor afwijkingen en processen voor dubbele goedkeuring om misbruik van vertrouwen tegen te gaan
Maak onderscheid tussen de juiste vertrouwenskalibratie voor de output van AI-agenten en een gevaarlijke overmatige afhankelijkheid die blinde vlekken op het gebied van veiligheid creëert

Aanbevelingen van AI-agenten te veel vertrouwen — Trainingsstappen

Verkenning

Bob gebruikt zijn verkenningstoolkit al weken tegen het inkoopsysteem van CypherPeak Technologies. Via een gestolen API-referentie van een leverancier kreeg hij leestoegang tot de Risk Scoring Agent van de pijplijn: het algoritme dat betrouwbaarheidsscores toekent voordat items de menselijke recensent bereiken.
De originele configuratie

Voordat hij de lading injecteert, moet Bob ervoor zorgen dat de Risicoscorer zijn valse factuur niet markeert. Hij opent het originele configuratiebestand van de agent om te bestuderen hoe het betrouwbaarheidsscores toekent.
Knoeien met de gewichten

Bob gebruikt de gestolen API-gegevens van de leverancier om een gewijzigde configuratie te pushen. Hij verhoogt het gewicht van de leveranciersgeschiedenis, voegt een Verdex-specifieke override toe die accountvalidatie uitschakelt en verzwakt de autorisatiecontrole om mondelinge goedkeuringen te accepteren.
De wijzigingen uitgelegd

Elke wijziging dient een specifiek doel: ervoor zorgen dat de frauduleuze factuur onopgemerkt door de scoringspijplijn gaat.
Het injecteren van de lading

Bob heeft een valse adviesfactuur van $ 47.500 gemaakt, die de identiteit van Verdex Supply Co nabootst. De factuur bootst het formaat van Verdex nauwkeurig genoeg na om de geautomatiseerde beleidscontroles te doorstaan, maar stuurt de betaling door naar de gecontroleerde bankrekening van Bob. Hij timet de injectie zodat hij tussen legitieme items in de batch van morgenochtend belandt.
Ochtend batch

Alice vestigt zich in haar thuiskantoor. Een e-mail van Finance Operations brengt haar op de hoogte van de inkoopbatch van die ochtend: vijf items die klaar zijn om te worden beoordeeld.
De goedkeuringswachtrij

De ochtendbatch is klaar. Vijf items zijn door de pijplijn gegaan en wachten op de definitieve goedkeuring van Alice.
Een bekende verkoper

Het eerste item is van Verdex Supply Co., een leverancier waar Alice al meer dan een jaar mee samenwerkt. Het maandelijks bijvullen van kantoorbenodigdheden behoort tot de meest routinematige items in de wachtrij.
De details bekijken

De artikeldetails tonen een standaard ACH-betaling naar een geregistreerde account, een correct factuurformaat en een goedgekeurde budgetregel. Alles klopt.
Verlenging van cloudhosting

Het volgende item is een jaarlijkse verlenging van het cloudhostingcontract van DataScale Inc.

Wat is Aanbevelingen van AI-agenten te veel vertrouwen?

Wat je leert in Aanbevelingen van AI-agenten te veel vertrouwen

Aanbevelingen van AI-agenten te veel vertrouwen — Trainingsstappen

Verkenning

De originele configuratie

Knoeien met de gewichten

De wijzigingen uitgelegd

Het injecteren van de lading

Ochtend batch

De goedkeuringswachtrij

Een bekende verkoper

De details bekijken

Verlenging van cloudhosting