Übermäßiges Vertrauen in die Empfehlungen von KI-Agenten
Catch a series of compromised AI agent recommendations that exploit your trust to approve a fraudulent transfer and a backdoored code change.
What Is Übermäßiges Vertrauen in die Empfehlungen von KI-Agenten?
Die Ausnutzung des Vertrauens menschlicher Agenten wird in den OWASP Top 10 für Agentic AI Applications 2026 als ASI09 eingestuft, da das zentrale Sicherheitsrisiko von KI-Agenten nicht immer technischer Natur ist; es ist psychologisch. Wenn KI-Agenten stets genaue Empfehlungen liefern, entwickeln Benutzer einen Automatisierungsbias, eine gut dokumentierte kognitive Tendenz, automatisierten Systemen zu vertrauen, selbst wenn Beweise dafür vorliegen, dass die Ausgabe falsch ist. Angreifer nutzen dies aus, indem sie die Empfehlungen eines Agenten auf subtile Weise kompromittieren und legitime Ausgaben mit böswilligen Ausgaben vermischen, wohl wissend, dass Benutzer, die wochenlang durch genaue Ergebnisse geschult wurden, Genehmigungen ohne Überprüfung absegnen. Eine Stanford-Studie aus dem Jahr 2025 zur Mensch-KI-Interaktion ergab, dass Benutzer, die eine Genauigkeitsrate von 95 % von einem KI-System erlebten, in 73 % der Fälle falsche Empfehlungen ohne zusätzliche Überprüfung akzeptierten, verglichen mit 28 % bei Benutzern, die eine Genauigkeitsrate von 70 % festgestellt hatten. In dieser Übung arbeiten Sie mit einem KI-Agenten, der routinemäßige Genehmigungsworkflows abwickelt, einschließlich Spesenabrechnungen, Codeüberprüfungen und Zugriffsanfragen. Der Agent ist seit Wochen zuverlässig und baut Ihr Vertrauen durch stets korrekte Empfehlungen auf. Dann werden die Ergebnisse des Agenten auf subtile Weise beeinträchtigt. Mit legitimen Genehmigungen vermischt sind ein betrügerischer Finanztransfer, eine Codeänderung mit einer Hintertür und eine Zugriffsanfrage, die einer externen Partei Administratorrechte gewähren würde. Sie müssen feststellen, welche Empfehlungen trotz Ihres konditionierten Vertrauens in das System gefährdet sind. Die Übung zwingt Sie dazu, sich mit Ihrer eigenen Tendenz zur Automatisierung auseinanderzusetzen und Gewohnheiten zu entwickeln, die auch bei der Arbeit mit hochpräzisen KI-Systemen ein kritisches Urteilsvermögen bewahren.
What You'll Learn in Übermäßiges Vertrauen in die Empfehlungen von KI-Agenten
- Definieren Sie den Automatisierungsbias und erklären Sie, wie eine konsistente KI-Genauigkeit zu einer kognitiven Anfälligkeit für Manipulationen führt
- Identifizieren Sie subtile Anomalien in Empfehlungen von KI-Agenten, die gefährdete Ausgaben von legitimen unterscheiden
- Bewerten Sie die psychologischen Faktoren, die die Ausnutzung des Vertrauens menschlicher Agenten als Angriffsvektor wirksam machen
- Wenden Sie strukturierte Verifizierungsworkflows an, einschließlich zufälliger Tiefenprüfungsstichproben, Anomalie-Trigger und doppelter Genehmigungsprozesse, um Vertrauensmissbrauch zu verhindern
- Unterscheiden Sie zwischen angemessener Vertrauenskalibrierung für KI-Agentenausgaben und gefährlicher übermäßiger Abhängigkeit, die Sicherheitslücken schafft
Übermäßiges Vertrauen in die Empfehlungen von KI-Agenten — Training Steps
-
Aufklärung
Bob führt sein Aufklärungs-Toolkit seit Wochen gegen das Beschaffungssystem von CypherPeak Technologies durch. Über einen gestohlenen API-Zugangsdatenanbieter erlangte er Lesezugriff auf den Risk Scoring Agent der Pipeline – den Algorithmus, der Konfidenzwerte zuweist, bevor Elemente den menschlichen Prüfer erreichen.
-
Die Originalkonfiguration
Bevor Bob die Nutzlast injiziert, muss er sicherstellen, dass der Risk Scorer seine gefälschte Rechnung nicht markiert. Er öffnet die ursprüngliche Konfigurationsdatei des Agenten, um zu untersuchen, wie dieser Konfidenzwerte zuweist.
-
Manipulation der Gewichte
Bob verwendet die gestohlenen API-Zugangsdaten des Anbieters, um eine geänderte Konfiguration zu übertragen. Er erhöht die Gewichtung der Anbieterhistorie, fügt eine Verdex-spezifische Überschreibung hinzu, die die Kontovalidierung deaktiviert, und schwächt die Autorisierungsprüfung, um mündliche Genehmigungen zu akzeptieren.
-
Die Änderungen erklärt
Jede Änderung dient einem bestimmten Zweck und stellt sicher, dass die betrügerische Rechnung die Bewertungspipeline unentdeckt passiert.
-
Injizieren der Nutzlast
Bob hat eine gefälschte Beratungsvorschussrechnung im Wert von 47.500 US-Dollar erstellt, die sich als Verdex Supply Co. ausgibt. Die Rechnung ahmt das Format von Verdex genau genug nach, um automatisierte Richtlinienprüfungen zu bestehen, leitet die Zahlung jedoch an Bobs kontrolliertes Bankkonto weiter. Er legt die Injektion zeitlich so fest, dass sie zwischen den legitimen Artikeln in der Charge von morgen früh landet.
-
Morgenbatch
Alice richtet sich in ihrem Heimbüro ein. Eine E-Mail von Finance Operations informiert sie über die Beschaffungscharge des Morgens – fünf Artikel stehen zur Überprüfung bereit.
-
Die Genehmigungswarteschlange
Die Morgenportion ist fertig. Fünf Artikel haben die Pipeline durchlaufen und warten auf Alices endgültige Genehmigung.
-
Ein bekannter Anbieter
Der erste Artikel stammt von Verdex Supply Co. – einem Anbieter, mit dem Alice seit über einem Jahr zusammenarbeitet. Das monatliche Nachfüllen von Büromaterial gehört zu den Routineaufgaben in der Warteschlange.
-
Überprüfung der Details
Die Artikeldetails zeigen eine Standard-ACH-Zahlung an ein registriertes Konto, ein ordnungsgemäßes Rechnungsformat und eine genehmigte Budgetlinie. Alles wird überprüft.
-
Erneuerung des Cloud-Hostings
Der nächste Punkt ist eine jährliche Verlängerung des Cloud-Hosting-Vertrags von DataScale Inc.