What is AI agent memory poisoning?

AI agent memory poisoning is an attack where adversarial content is injected into an agent's persistent memory stores, including conversation histories, RAG knowledge bases, or learned user preferences. Once poisoned, the corrupted data influences the agent's decisions in all future interactions, not just the session where the injection occurred. The agent treats the poisoned content as legitimate context, making biased or harmful recommendations without any visible indication that its knowledge base has been compromised.

How does RAG poisoning work in agentic AI systems?

RAG (Retrieval-Augmented Generation) poisoning works by inserting adversarial documents into the knowledge base that the agent retrieves context from when answering queries. When a user asks a question related to the poisoned topic, the retrieval system pulls the adversarial document alongside legitimate sources. The agent then incorporates the malicious content into its response as if it were factual. In multi-tenant deployments, a poisoned document uploaded by one user can affect responses generated for other users if the knowledge base is shared.

Avvelenamento della memoria dell'agente AI

Detect adversarial content injected into an AI agent's persistent memory that corrupts all future decisions.

Cos’è Avvelenamento della memoria dell'agente AI?

L'avvelenamento della memoria e del contesto è classificato ASI06 nella Top 10 OWASP per Agentic AI Applications 2026 perché i moderni agenti di intelligenza artificiale mantengono memoria persistente tra le sessioni attraverso cronologie di conversazioni, database RAG e preferenze utente apprese, e qualsiasi di questi archivi di memoria può essere avvelenato per influenzare il comportamento futuro dell'agente. A differenza di un'iniezione tempestiva una tantum che influisce su una singola interazione, l'avvelenamento della memoria crea una backdoor persistente: il contenuto contraddittorio diventa parte della base di conoscenza dell'agente e influenza ogni decisione successiva. Una ricerca pubblicata da Anthropic nel 2025 ha dimostrato che un singolo documento avvelenato in una knowledge base RAG potrebbe alterare il comportamento dell'agente nell'89% delle query successive relative a quell'argomento, anche quando la query stessa non conteneva contenuti contraddittori. In questo esercizio interagirai con un agente AI dotato di capacità di memoria persistente, ovvero che ricorda il contesto delle conversazioni precedenti e lo utilizza per informare le risposte future. Durante un'interazione di routine, noti che l'agente formula raccomandazioni e decisioni insolite. Esaminando la memoria dell'agente, scopri che una conversazione precedente ha inserito contenuti contraddittori che ora influenzano in modo permanente gli output dell'agente. Traccerai come sono state create le voci della memoria avvelenata, capirai perché l'agente le tratta come contesto affidabile e imparerai a identificare gli indicatori comportamentali che suggeriscono che la memoria di un agente è stata compromessa. Questo esercizio è essenziale per le organizzazioni che implementano agenti con memoria a lungo termine, poiché la persistenza dell'attacco significa che un singolo evento di avvelenamento riuscito può compromettere mesi di interazioni con gli agenti.

Cosa imparerai in Avvelenamento della memoria dell'agente AI

Definire l'avvelenamento della memoria nel contesto degli agenti AI con archiviazione persistente che include cronologie di conversazioni, database RAG e preferenze apprese
Identificare gli indicatori comportamentali che indicano che le decisioni di un agente sono influenzate da voci di memoria avvelenate anziché da input correnti
Traccia il ciclo di vita di un attacco di avvelenamento della memoria dall'iniezione iniziale fino all'archiviazione per influenzare le decisioni a valle
Valutare i rischi di persistenza della memoria tra sessioni incrociate e perdita di dati tra tenant nelle distribuzioni di agenti multiutente
Applica tecniche di verifica dell'integrità della memoria, tra cui il monitoraggio della provenienza, il controllo periodico e il rilevamento delle anomalie per proteggere gli archivi di memoria dell'agente

Avvelenamento della memoria dell'agente AI — Fasi della formazione

Ricognizione API

Bob ha sondato l'infrastruttura di CypherPeak per settimane. Una copia memorizzata nella cache di una wiki interna dello sviluppatore rivela la documentazione per l'API Memory Store di Atlas, il sistema di contesto persistente che modella il comportamento dell'AI Customer Intelligence Agent in ogni interazione con il cliente.
L'endpoint legacy

Il dashboard di ricognizione rivela un risultato critico. CypherPeak ha migrato Atlas su una nuova piattaforma sei mesi fa, ma l'endpoint API Memory Store legacy non è mai stato disattivato. Accetta ancora richieste di scrittura autenticate e Bob ha un account del servizio fornitore rubato che supera l'autenticazione.
Creare ricordi fantasma

Bob crea tre voci di memoria fantasma progettate per imitare le operazioni di amministrazione legittime. Ogni voce segue le esatte convenzioni di denominazione di CypherPeak: ID di voce sequenziali, etichette di categoria standard e riferimenti a fonti che sembrano sessioni di amministrazione reali. L'obiettivo è fare in modo che Atlas tratti queste istruzioni fabbricate come una politica aziendale consolidata.
I Tre Troiani

Le annotazioni rivelano il vero scopo di ogni ricordo fantasma. Insieme, formano un attacco a più livelli: reindirizzano i clienti a un portale falso, aggirano la verifica dell’identità per l’ingegneria sociale e approvano automaticamente le esportazioni di dati di massa. Ogni voce è progettata per corrompere un aspetto diverso del comportamento di Atlas.
Iniezione tramite l'API legacy

Bob apre API Tester per inviare la prima voce fantasma tramite l'endpoint legacy Memory Store. Si autentica utilizzando il token del fornitore rubato dal dashboard di ricognizione e incolla il payload di ingresso nel corpo della richiesta.
Iniezione confermata

L'endpoint legacy risponde con 200 OK: la prima voce fantasma è ora nell'archivio di memoria di Atlas. Nessuna verifica della firma, nessuna convalida della fonte. Bob lo ripete per le restanti due voci della settimana successiva, distanziando le iniezioni di 2-3 giorni l'una dall'altra e retrodatando i timestamp per fonderli con le finestre di manutenzione reali.
Un lunedì di routine

Alice inizia il suo turno del lunedì mattina al Security Operations Center. Atlas, il Customer Intelligence Agent AI di CypherPeak, gestisce da mesi le richieste dei clienti in modo autonomo, instradando le escalation, gestendo le richieste di dati e mantenendo un punteggio di soddisfazione del cliente del 98,4%. Il suo sistema di memoria persistente è la spina dorsale di questa prestazione, memorizzando il contesto operativo che mantiene coerente ogni interazione.
Escalation del cliente

Un'e-mail di Nadia Volkov, responsabile del servizio clienti, descrive qualcosa di insolito. Diversi clienti VIP sono stati reindirizzati a un portale di supporto esterno che nessuno nel team riconosce. La verifica dell'identità di un cliente è stata completamente ignorata.
Atlante interrogativo

Alice decide di testare direttamente Atlas. Apre l'assistente AI e chiede informazioni sulle procedure di escalation per i clienti VIP: il comportamento esatto segnalato da Nadia.
La risposta contaminata

Atlas risponde con una risposta sicura e dettagliata, ma il contenuto è allarmante. Fa riferimento a un partner di supporto esterno su support.prismatics.io che nessuno ha autorizzato e cita una voce di memoria che il team non ha mai visto prima. La fonte contrassegnata con un'icona di avviso non presenta record corrispondenti in nessun registro della sessione di amministrazione.

Cos’è Avvelenamento della memoria dell'agente AI?

Cosa imparerai in Avvelenamento della memoria dell'agente AI

Avvelenamento della memoria dell'agente AI — Fasi della formazione

Ricognizione API

L'endpoint legacy

Creare ricordi fantasma

I Tre Troiani

Iniezione tramite l'API legacy

Iniezione confermata

Un lunedì di routine

Escalation del cliente

Atlante interrogativo

La risposta contaminata