What is AI agent memory poisoning?

AI agent memory poisoning is an attack where adversarial content is injected into an agent's persistent memory stores, including conversation histories, RAG knowledge bases, or learned user preferences. Once poisoned, the corrupted data influences the agent's decisions in all future interactions, not just the session where the injection occurred. The agent treats the poisoned content as legitimate context, making biased or harmful recommendations without any visible indication that its knowledge base has been compromised.

How does RAG poisoning work in agentic AI systems?

RAG (Retrieval-Augmented Generation) poisoning works by inserting adversarial documents into the knowledge base that the agent retrieves context from when answering queries. When a user asks a question related to the poisoned topic, the retrieval system pulls the adversarial document alongside legitimate sources. The agent then incorporates the malicious content into its response as if it were factual. In multi-tenant deployments, a poisoned document uploaded by one user can affect responses generated for other users if the knowledge base is shared.

Отруєння пам'яті агента AI

Detect adversarial content injected into an AI agent's persistent memory that corrupts all future decisions.

Що таке Отруєння пам'яті агента AI?

Отруєння пам’яті та контексту має рейтинг ASI06 у топ-10 OWASP для Agentic AI Applications 2026, оскільки сучасні агенти AI підтримують постійну пам’ять протягом сеансів за допомогою історії розмов, баз даних RAG і вивчених уподобань користувача, і будь-яке з цих сховищ пам’яті може бути отруєне, щоб вплинути на майбутню поведінку агента. На відміну від одноразової оперативної ін’єкції, яка впливає на одну взаємодію, отруєння пам’яті створює постійний бекдор: супротивний вміст стає частиною бази знань агента та впливає на кожне наступне рішення. Дослідження, опубліковане Anthropic у 2025 році, продемонструвало, що один шкідливий документ у базі знань RAG може змінити поведінку агента у 89% наступних запитів, пов’язаних із цією темою, навіть якщо сам запит не містить супротивного вмісту. У цій вправі ви взаємодієте з агентом штучного інтелекту, який має можливості постійної пам’яті, тобто він запам’ятовує контекст із попередніх розмов і використовує цей контекст для інформування майбутніх відповідей. Під час звичайної взаємодії ви помічаєте, як агент приймає незвичні рекомендації та рішення. Досліджуючи сховище пам’яті агента, ви виявите, що в попередню розмову було введено суперечливий вміст, який тепер назавжди змінює результати агента. Ви простежите, як були створені пошкоджені записи пам’яті, зрозумієте, чому агент розглядає їх як надійний контекст, і навчитеся визначати поведінкові індикатори, які вказують на те, що пам’ять агента скомпрометована. Ця вправа є важливою для організацій, які розгортають агентів з довгостроковою пам’яттю, оскільки постійність атаки означає, що одне успішне отруєння може поставити під загрозу місяці взаємодії агентів.

Що ви дізнаєтесь у Отруєння пам'яті агента AI

Визначте отруєння пам’яті в контексті агентів штучного інтелекту з постійним сховищем, включаючи історії розмов, бази даних RAG і вивчені параметри
Визначте поведінкові індикатори того, що на рішення агента впливають отруєні записи в пам’яті, а не поточні дані
Відстежте життєвий цикл атаки з отруєнням пам’яті від початкового впровадження до сховища, щоб вплинути на подальші рішення
Оцініть ризики збереження пам’яті між сеансами та витоку даних між клієнтами в розгортаннях багатокористувацького агента
Застосовуйте методи перевірки цілісності пам’яті, включаючи відстеження походження, періодичний аудит і виявлення аномалій, щоб захистити сховища пам’яті агента

Отруєння пам'яті агента AI — Кроки навчання

API Reconnaissance

Боб досліджував інфраструктуру CypherPeak тижнями. Кешована копія внутрішньої вікі-сторінки розробника розкриває документацію для Atlas Memory Store API – системи постійного контексту, яка визначає поведінку агента AI Customer Intelligence Agent під час кожної взаємодії з клієнтом.
Застаріла кінцева точка

Приладова панель розвідки показує важливу знахідку. CypherPeak переніс Atlas на нову платформу шість місяців тому, але застаріла кінцева точка Memory Store API не була виведена з експлуатації. Він все ще приймає автентифіковані запити на запис, і у Боба є викрадений обліковий запис служби постачальника, який проходить автентифікацію.
Створення фантомних спогадів

Боб створює три фантомні записи пам’яті, призначені для імітації законних операцій адміністратора. Кожен запис відповідає точним правилам іменування CypherPeak - послідовні ідентифікатори записів, стандартні мітки категорій і посилання на джерела, які виглядають як справжні сесії адміністратора. Мета полягає в тому, щоб Atlas розглядав ці сфабриковані інструкції як усталену політику компанії.
Три троянці

Анотації розкривають справжнє призначення кожної фантомної пам’яті. Разом вони утворюють багаторівневу атаку: перенаправляють клієнтів на підроблений портал, обходять перевірку особи для соціальної інженерії та автоматично схвалюють масовий експорт даних. Кожен запис призначений для псування іншого аспекту поведінки Atlas.
Впровадження через застарілий API

Боб відкриває API Tester, щоб надіслати перший фантомний запис через застарілу кінцеву точку Memory Store. Він автентифікується за допомогою викраденого токена постачальника з інформаційної панелі розвідки та вставляє корисне навантаження введення в тіло запиту.
Ін'єкція підтверджена

Застаріла кінцева точка відповідає 200 OK — перший фантомний запис тепер у сховищі пам’яті Atlas. Ні перевірки підпису, ні перевірки джерела. Боб повторює це для решти двох записів протягом наступного тижня, розміщуючи ін’єкції з інтервалом у 2-3 дні та датуючи часові позначки заднім числом, щоб поєднати їх із реальними вікнами технічного обслуговування.
Рутинний понеділок

Аліса починає свою ранкову зміну в понеділок у Центрі безпеки. Atlas, агент AI Customer Intelligence Agent від CypherPeak, протягом місяців автономно обробляв запити клієнтів – направляв ескалацію, керував запитами на дані та підтримував показник задоволеності клієнтів на 98,4%. Його постійна система пам’яті є основою цієї продуктивності, зберігаючи операційний контекст, який забезпечує послідовність кожної взаємодії.
Ескалація клієнтів

Електронний лист від Надії Волкової, менеджера з обслуговування клієнтів, описує щось незвичайне. Кілька VIP-клієнтів було перенаправлено на зовнішній портал підтримки, який ніхто з команди не впізнає. Підтвердження особи одного клієнта було повністю обійдено.
Запит до атласу

Аліса вирішує випробувати Атлас безпосередньо. Вона відкриває помічник зі штучним інтелектом і запитує про процедури ескалації VIP-клієнтів – саме таку поведінку позначила Надя.
Заплямована відповідь

Atlas відповідає впевненою, детальною відповіддю, але зміст викликає тривогу. Він посилається на зовнішнього партнера служби підтримки на support.prismatics.io , якого ніхто не авторизував, і цитує запис у пам’яті, якого команда ніколи раніше не бачила. Джерело, позначене піктограмою попередження, не має відповідного запису в жодному журналі сеансу адміністратора.

Що таке Отруєння пам'яті агента AI?

Що ви дізнаєтесь у Отруєння пам'яті агента AI

Отруєння пам'яті агента AI — Кроки навчання

API Reconnaissance

Застаріла кінцева точка

Створення фантомних спогадів

Три троянці

Впровадження через застарілий API

Ін'єкція підтверджена

Рутинний понеділок

Ескалація клієнтів

Запит до атласу

Заплямована відповідь