Gedächtnisvergiftung durch KI-Agenten

Detect adversarial content injected into an AI agent's persistent memory that corrupts all future decisions.

What Is Gedächtnisvergiftung durch KI-Agenten?

Speicher- und Kontextvergiftung wird in den OWASP Top 10 für Agentic AI Applications 2026 als ASI06 eingestuft, da moderne KI-Agenten durch Konversationsverläufe, RAG-Datenbanken und erlernte Benutzerpräferenzen sitzungsübergreifend persistenten Speicher aufrechterhalten und jeder dieser Speicherspeicher vergiftet werden kann, um das zukünftige Verhalten des Agenten zu beeinflussen. Im Gegensatz zu einer einmaligen Prompt-Injection, die sich auf eine einzelne Interaktion auswirkt, erzeugt Memory Poisoning eine dauerhafte Hintertür: Der gegnerische Inhalt wird Teil der Wissensbasis des Agenten und beeinflusst jede nachfolgende Entscheidung. Von Anthropic im Jahr 2025 veröffentlichte Untersuchungen zeigten, dass ein einziges manipuliertes Dokument in einer RAG-Wissensdatenbank das Agentenverhalten in 89 % der nachfolgenden Abfragen zu diesem Thema ändern konnte, selbst wenn die Abfrage selbst keinen kontroversen Inhalt enthielt. In dieser Übung interagieren Sie mit einem KI-Agenten, der über persistente Speicherfähigkeiten verfügt, das heißt, er merkt sich den Kontext aus früheren Gesprächen und nutzt diesen Kontext, um zukünftige Antworten zu informieren. Während einer Routineinteraktion fällt Ihnen auf, dass der Agent ungewöhnliche Empfehlungen und Entscheidungen abgibt. Wenn Sie den Speicher des Agenten untersuchen, stellen Sie fest, dass bei einem früheren Gespräch widersprüchliche Inhalte eingefügt wurden, die nun die Ergebnisse des Agenten dauerhaft verzerren. Sie werden verfolgen, wie die vergifteten Speichereinträge erstellt wurden, verstehen, warum der Agent sie als vertrauenswürdigen Kontext behandelt, und lernen, Verhaltensindikatoren zu identifizieren, die darauf hindeuten, dass der Speicher eines Agenten beeinträchtigt wurde. Diese Übung ist für Unternehmen, die Agenten mit Langzeitgedächtnis einsetzen, von entscheidender Bedeutung, da die Dauer des Angriffs bedeutet, dass ein einziges erfolgreiches Poisoning-Ereignis monatelange Agenteninteraktionen gefährden kann.

What You'll Learn in Gedächtnisvergiftung durch KI-Agenten

Gedächtnisvergiftung durch KI-Agenten — Training Steps

  1. API-Aufklärung

    Bob untersucht seit Wochen die Infrastruktur von CypherPeak. Eine zwischengespeicherte Kopie eines internen Entwickler-Wikis enthüllt die Dokumentation für die Memory Store API von Atlas – das persistente Kontextsystem, das prägt, wie sich der AI Customer Intelligence Agent bei jeder Kundeninteraktion verhält.

  2. Der Legacy-Endpunkt

    Das Aufklärungs-Dashboard zeigt einen kritischen Befund. CypherPeak hat Atlas vor sechs Monaten auf eine neue Plattform migriert, der alte Memory Store API-Endpunkt wurde jedoch nie außer Betrieb genommen. Es akzeptiert weiterhin authentifizierte Schreibanfragen – und Bob verfügt über ein gestohlenes Anbieterdienstkonto, das die Authentifizierung besteht.

  3. Phantomerinnerungen herstellen

    Bob erstellt drei Phantomspeichereinträge, die legitime Administratorvorgänge nachahmen sollen. Jeder Eintrag folgt den genauen Namenskonventionen von CypherPeak – sequentielle Eintrags-IDs, Standardkategoriebezeichnungen und Quellenverweise, die wie echte Admin-Sitzungen aussehen. Das Ziel besteht darin, Atlas dazu zu bringen, diese erfundenen Anweisungen als etablierte Unternehmensrichtlinien zu behandeln.

  4. Die drei Trojaner

    Die Anmerkungen enthüllen den wahren Zweck jeder Phantomerinnerung. Zusammen bilden sie einen mehrschichtigen Angriff: Leiten Sie Kunden auf ein gefälschtes Portal um, umgehen Sie die Identitätsprüfung für Social Engineering und genehmigen Sie Massendatenexporte automatisch. Jeder Eintrag soll einen anderen Aspekt des Verhaltens von Atlas korrumpieren.

  5. Injektion über die Legacy-API

    Bob öffnet den API-Tester, um den ersten Phantomeintrag über den alten Memory Store-Endpunkt zu senden. Er authentifiziert sich mithilfe des gestohlenen Anbieter-Token aus dem Aufklärungs-Dashboard und fügt die Eintragsnutzlast in den Anfragetext ein.

  6. Injektion bestätigt

    Der Legacy-Endpunkt antwortet mit 200 OK – der erste Phantomeintrag befindet sich jetzt im Speicher von Atlas. Keine Signaturprüfung, keine Quellenvalidierung. Bob wiederholt dies für die verbleibenden zwei Einträge in der nächsten Woche, wobei er die Injektionen im Abstand von 2–3 Tagen verteilt und die Zeitstempel rückdatiert, um sie mit den tatsächlichen Wartungsfenstern zu verschmelzen.

  7. Ein Routine-Montag

    Alice beginnt ihre Montagmorgenschicht im Security Operations Center. Atlas, der AI Customer Intelligence Agent von CypherPeak, bearbeitet Kundenanfragen seit Monaten autonom – leitet Eskalationen weiter, verwaltet Datenanfragen und hält eine Kundenzufriedenheit von 98,4 % aufrecht. Sein persistentes Speichersystem ist das Rückgrat dieser Leistung und speichert den Betriebskontext, der jede Interaktion konsistent hält.

  8. Kundeneskalation

    Eine E-Mail von Nadia Volkov, Customer Service Manager, beschreibt etwas Ungewöhnliches. Mehrere VIP-Kunden wurden auf ein externes Support-Portal weitergeleitet, das niemand im Team kennt. Die Identitätsprüfung eines Kunden wurde komplett umgangen.

  9. Atlas abfragen

    Alice beschließt, Atlas direkt zu testen. Sie öffnet den KI-Assistenten und fragt nach Eskalationsverfahren für VIP-Kunden – genau das Verhalten, das Nadia gemeldet hat.

  10. Die verdorbene Antwort

    Atlas antwortet mit einer souveränen, ausführlichen Antwort – doch der Inhalt ist alarmierend. Es verweist auf einen externen Supportpartner unter support.prismatics.io , den niemand autorisiert hat, und zitiert einen Speichereintrag, den das Team noch nie zuvor gesehen hat. Die mit einem Warnsymbol gekennzeichnete Quelle weist in keinem Admin-Sitzungsprotokoll einen passenden Eintrag auf.