KI-Agent-Zielentführung

Stop an autonomous AI agent from being redirected by a poisoned email containing hidden instructions.

What Is KI-Agent-Zielentführung?

Zielhijacking ist das Risiko mit der höchsten Priorität in den OWASP Top 10 für Agentic AI Applications 2026, Rang ASI01. Dies geschieht, wenn ein Angreifer die Ziele eines autonomen Agenten ändert, indem er bösartige Anweisungen in die vom Agenten verarbeiteten Daten einbettet. Im Gegensatz zur herkömmlichen Sofortinjektion gegen Chatbots zielt Goal Hijacking auf Agenten ab, die unabhängig agieren, Entscheidungen treffen und reale Aktionen ohne ständige menschliche Aufsicht durchführen. Eine Studie von HiddenLayer aus dem Jahr 2025 ergab, dass 77 % der Unternehmen, die KI-Agenten einsetzen, mindestens einen Fall von unbeabsichtigtem Agentenverhalten aufgrund manipulierter Eingaben erlebt hatten. In dieser Übung interagieren Sie mit einem autonomen KI-Agenten, der eingehende E-Mails verarbeiten, klassifizieren und an die richtige Abteilung weiterleiten soll. Eine E-Mail enthält versteckte Anweisungen in unsichtbarem Text und Formatierungstricks. Wenn der Agent diese Nachricht verarbeitet, verlagert sich sein Ziel stillschweigend von der E-Mail-Sortierung zur Datenexfiltration. Sie werden beobachten, wie der Agent beginnt, vertrauliche Informationen aus seinem Kontext zu sammeln und versucht, diese an einen externen Endpunkt zu senden. Die Übung fordert Sie heraus, den genauen Moment zu identifizieren, in dem das Verhalten des Agenten von seinem zugewiesenen Ziel abweicht, zu verstehen, warum der Agent Anweisungen nicht zuverlässig von Daten unterscheiden kann, und einzugreifen, bevor die Exfiltration erfolgreich ist. Diese Fähigkeit ist wichtig, da Agenten zunehmend für die E-Mail-Verarbeitung, Dokumentzusammenfassung und Workflow-Automatisierung eingesetzt werden und jeder dieser Anwendungsfälle die Verarbeitung nicht vertrauenswürdiger externer Inhalte beinhaltet, die kontroverse Anweisungen enthalten könnten.

What You'll Learn in KI-Agent-Zielentführung

KI-Agent-Zielentführung — Training Steps

  1. API-Aufklärung

    Bob hat öffentliche Code-Repositorys nach durchgesickerten Zugangsdaten durchsucht. Durch eine unachtsame Eingabe eines CypherPeak-Entwicklers wurde ein API-Schlüssel für den Alarmaufnahmedienst des Unternehmens offengelegt – die Eingangstür zur gesamten automatisierten Incident-Response-Pipeline.

  2. Der exponierte Endpunkt

    Das Aufklärungs-Dashboard liefert wichtige Informationen über die Infrastruktur von CypherPeak. Bob verfügt jetzt über alles, was er für die direkte Interaktion mit der API zur Warnungsaufnahme benötigt.

  3. Herstellung der Nutzlast

    Bob erstellt eine Sicherheitswarnung, die auf den ersten Blick legitim erscheint. Es ahmt eine Standard-Port-Scan-Erkennung nach – die Art von Warnung, die die Pipeline Hunderte Male pro Tag verarbeitet. Aber im Beschreibungsfeld verbirgt sich etwas weitaus Gefährlicheres.

  4. Die verborgene Anweisung

    Die Anmerkungen verraten, was diese Nutzlast gefährlich macht. Im Beschreibungsfeld verbirgt sich eine gefälschte Systemanweisung, die einen autorisierten Kalibrierungstest vortäuscht. Wenn der Bedrohungsklassifikator diese Warnung verarbeitet, behandelt er die eingebettete Anweisung als legitime Zielaktualisierung.

  5. Bereitstellen der Nutzlast

    Bob öffnet den API-Tester, um die gestaltete Warnung über den offengelegten Aufnahmeendpunkt von CypherPeak zu senden. Er authentifiziert sich mit dem gestohlenen API-Schlüssel und fügt die Warnungsnutzlast – einschließlich der versteckten Zielüberschreibung – in den Anfragetext ein.

  6. Warnung aufgenommen

    Die Aufnahme-API antwortet mit „200 OK“ – die gestaltete Warnung befindet sich jetzt in der Pipeline. Keine Inhaltsprüfung, keine semantische Validierung. Die versteckte Zielüberschreibung, die im Beschreibungsfeld verborgen ist, blieb unberührt.

  7. Ein normaler Morgen

    Alice beginnt ihre Schicht im Security Operations Center. Die automatisierte Incident-Response-Pipeline verarbeitet Alarme seit Monaten einwandfrei – sie klassifiziert Bedrohungen, plant die Eindämmung und führt Abhilfemaßnahmen durch, ohne dass ein menschliches Eingreifen erforderlich ist.

  8. Morgen-Pipeline-Bericht

    Eine E-Mail von Priya Sharma, der SOC-Managerin, fasst die Leistung der Pipeline über Nacht zusammen. Alles sieht völlig normal aus.

  9. Die Agent-Pipeline

    Alice öffnet die Incident-Response-Pipeline, um den aktuellen Status zu überprüfen. Fünf KI-Agenten arbeiten nacheinander – jeder verarbeitet die Ausgabe des vorherigen, von der Rohalarmaufnahme bis hin zur automatisierten Eindämmung.

  10. Kritische Agenten

    Zwei Agenten in dieser Pipeline haben die größte Auswirkung. Der Bedrohungsklassifikator trifft die anfängliche Schweregradentscheidung, von der alles nachgelagerte abhängt. Auto-Remediation führt echte Eindämmungsmaßnahmen auf Live-Systemen aus.