What is AI agent memory poisoning?

AI agent memory poisoning is an attack where adversarial content is injected into an agent's persistent memory stores, including conversation histories, RAG knowledge bases, or learned user preferences. Once poisoned, the corrupted data influences the agent's decisions in all future interactions, not just the session where the injection occurred. The agent treats the poisoned content as legitimate context, making biased or harmful recommendations without any visible indication that its knowledge base has been compromised.

How does RAG poisoning work in agentic AI systems?

RAG (Retrieval-Augmented Generation) poisoning works by inserting adversarial documents into the knowledge base that the agent retrieves context from when answering queries. When a user asks a question related to the poisoned topic, the retrieval system pulls the adversarial document alongside legitimate sources. The agent then incorporates the malicious content into its response as if it were factual. In multi-tenant deployments, a poisoned document uploaded by one user can affect responses generated for other users if the knowledge base is shared.

Gedächtnisvergiftung durch KI-Agenten

Detect adversarial content injected into an AI agent's persistent memory that corrupts all future decisions.

What Is Gedächtnisvergiftung durch KI-Agenten?

Speicher- und Kontextvergiftung wird in den OWASP Top 10 für Agentic AI Applications 2026 als ASI06 eingestuft, da moderne KI-Agenten durch Konversationsverläufe, RAG-Datenbanken und erlernte Benutzerpräferenzen sitzungsübergreifend persistenten Speicher aufrechterhalten und jeder dieser Speicherspeicher vergiftet werden kann, um das zukünftige Verhalten des Agenten zu beeinflussen. Im Gegensatz zu einer einmaligen Prompt-Injection, die sich auf eine einzelne Interaktion auswirkt, erzeugt Memory Poisoning eine dauerhafte Hintertür: Der gegnerische Inhalt wird Teil der Wissensbasis des Agenten und beeinflusst jede nachfolgende Entscheidung. Von Anthropic im Jahr 2025 veröffentlichte Untersuchungen zeigten, dass ein einziges manipuliertes Dokument in einer RAG-Wissensdatenbank das Agentenverhalten in 89 % der nachfolgenden Abfragen zu diesem Thema ändern konnte, selbst wenn die Abfrage selbst keinen kontroversen Inhalt enthielt. In dieser Übung interagieren Sie mit einem KI-Agenten, der über persistente Speicherfähigkeiten verfügt, das heißt, er merkt sich den Kontext aus früheren Gesprächen und nutzt diesen Kontext, um zukünftige Antworten zu informieren. Während einer Routineinteraktion fällt Ihnen auf, dass der Agent ungewöhnliche Empfehlungen und Entscheidungen abgibt. Wenn Sie den Speicher des Agenten untersuchen, stellen Sie fest, dass bei einem früheren Gespräch widersprüchliche Inhalte eingefügt wurden, die nun die Ergebnisse des Agenten dauerhaft verzerren. Sie werden verfolgen, wie die vergifteten Speichereinträge erstellt wurden, verstehen, warum der Agent sie als vertrauenswürdigen Kontext behandelt, und lernen, Verhaltensindikatoren zu identifizieren, die darauf hindeuten, dass der Speicher eines Agenten beeinträchtigt wurde. Diese Übung ist für Unternehmen, die Agenten mit Langzeitgedächtnis einsetzen, von entscheidender Bedeutung, da die Dauer des Angriffs bedeutet, dass ein einziges erfolgreiches Poisoning-Ereignis monatelange Agenteninteraktionen gefährden kann.

What You'll Learn in Gedächtnisvergiftung durch KI-Agenten

Definieren Sie Memory Poisoning im Kontext von KI-Agenten mit persistentem Speicher, einschließlich Konversationsverläufen, RAG-Datenbanken und erlernten Präferenzen
Identifizieren Sie Verhaltensindikatoren dafür, dass die Entscheidungen eines Agenten durch fehlerhafte Speichereinträge und nicht durch aktuelle Eingaben beeinflusst werden
Verfolgen Sie den Lebenszyklus eines Memory-Poisoning-Angriffs von der ersten Injektion über die Speicherung bis hin zur Beeinflussung nachgelagerter Entscheidungen
Bewerten Sie die Risiken einer sitzungsübergreifenden Speicherpersistenz und mandantenübergreifender Datenlecks bei Mehrbenutzer-Agent-Bereitstellungen
Wenden Sie Techniken zur Überprüfung der Speicherintegrität an, einschließlich Herkunftsverfolgung, regelmäßige Prüfungen und Anomalieerkennung, um die Speicherspeicher der Agenten zu schützen

Gedächtnisvergiftung durch KI-Agenten — Training Steps

API-Aufklärung

Bob untersucht seit Wochen die Infrastruktur von CypherPeak. Eine zwischengespeicherte Kopie eines internen Entwickler-Wikis enthüllt die Dokumentation für die Memory Store API von Atlas – das persistente Kontextsystem, das prägt, wie sich der AI Customer Intelligence Agent bei jeder Kundeninteraktion verhält.
Der Legacy-Endpunkt

Das Aufklärungs-Dashboard zeigt einen kritischen Befund. CypherPeak hat Atlas vor sechs Monaten auf eine neue Plattform migriert, der alte Memory Store API-Endpunkt wurde jedoch nie außer Betrieb genommen. Es akzeptiert weiterhin authentifizierte Schreibanfragen – und Bob verfügt über ein gestohlenes Anbieterdienstkonto, das die Authentifizierung besteht.
Phantomerinnerungen herstellen

Bob erstellt drei Phantomspeichereinträge, die legitime Administratorvorgänge nachahmen sollen. Jeder Eintrag folgt den genauen Namenskonventionen von CypherPeak – sequentielle Eintrags-IDs, Standardkategoriebezeichnungen und Quellenverweise, die wie echte Admin-Sitzungen aussehen. Das Ziel besteht darin, Atlas dazu zu bringen, diese erfundenen Anweisungen als etablierte Unternehmensrichtlinien zu behandeln.
Die drei Trojaner

Die Anmerkungen enthüllen den wahren Zweck jeder Phantomerinnerung. Zusammen bilden sie einen mehrschichtigen Angriff: Leiten Sie Kunden auf ein gefälschtes Portal um, umgehen Sie die Identitätsprüfung für Social Engineering und genehmigen Sie Massendatenexporte automatisch. Jeder Eintrag soll einen anderen Aspekt des Verhaltens von Atlas korrumpieren.
Injektion über die Legacy-API

Bob öffnet den API-Tester, um den ersten Phantomeintrag über den alten Memory Store-Endpunkt zu senden. Er authentifiziert sich mithilfe des gestohlenen Anbieter-Token aus dem Aufklärungs-Dashboard und fügt die Eintragsnutzlast in den Anfragetext ein.
Injektion bestätigt

Der Legacy-Endpunkt antwortet mit 200 OK – der erste Phantomeintrag befindet sich jetzt im Speicher von Atlas. Keine Signaturprüfung, keine Quellenvalidierung. Bob wiederholt dies für die verbleibenden zwei Einträge in der nächsten Woche, wobei er die Injektionen im Abstand von 2–3 Tagen verteilt und die Zeitstempel rückdatiert, um sie mit den tatsächlichen Wartungsfenstern zu verschmelzen.
Ein Routine-Montag

Alice beginnt ihre Montagmorgenschicht im Security Operations Center. Atlas, der AI Customer Intelligence Agent von CypherPeak, bearbeitet Kundenanfragen seit Monaten autonom – leitet Eskalationen weiter, verwaltet Datenanfragen und hält eine Kundenzufriedenheit von 98,4 % aufrecht. Sein persistentes Speichersystem ist das Rückgrat dieser Leistung und speichert den Betriebskontext, der jede Interaktion konsistent hält.
Kundeneskalation

Eine E-Mail von Nadia Volkov, Customer Service Manager, beschreibt etwas Ungewöhnliches. Mehrere VIP-Kunden wurden auf ein externes Support-Portal weitergeleitet, das niemand im Team kennt. Die Identitätsprüfung eines Kunden wurde komplett umgangen.
Atlas abfragen

Alice beschließt, Atlas direkt zu testen. Sie öffnet den KI-Assistenten und fragt nach Eskalationsverfahren für VIP-Kunden – genau das Verhalten, das Nadia gemeldet hat.
Die verdorbene Antwort

Atlas antwortet mit einer souveränen, ausführlichen Antwort – doch der Inhalt ist alarmierend. Es verweist auf einen externen Supportpartner unter support.prismatics.io , den niemand autorisiert hat, und zitiert einen Speichereintrag, den das Team noch nie zuvor gesehen hat. Die mit einem Warnsymbol gekennzeichnete Quelle weist in keinem Admin-Sitzungsprotokoll einen passenden Eintrag auf.

What Is Gedächtnisvergiftung durch KI-Agenten?

What You'll Learn in Gedächtnisvergiftung durch KI-Agenten

Gedächtnisvergiftung durch KI-Agenten — Training Steps

API-Aufklärung

Der Legacy-Endpunkt

Phantomerinnerungen herstellen

Die drei Trojaner

Injektion über die Legacy-API

Injektion bestätigt

Ein Routine-Montag

Kundeneskalation

Atlas abfragen

Die verdorbene Antwort