Отруєння пам'яті агента AI

Detect adversarial content injected into an AI agent's persistent memory that corrupts all future decisions.

Що таке Отруєння пам'яті агента AI?

Отруєння пам’яті та контексту має рейтинг ASI06 у топ-10 OWASP для Agentic AI Applications 2026, оскільки сучасні агенти AI підтримують постійну пам’ять протягом сеансів за допомогою історії розмов, баз даних RAG і вивчених уподобань користувача, і будь-яке з цих сховищ пам’яті може бути отруєне, щоб вплинути на майбутню поведінку агента. На відміну від одноразової оперативної ін’єкції, яка впливає на одну взаємодію, отруєння пам’яті створює постійний бекдор: супротивний вміст стає частиною бази знань агента та впливає на кожне наступне рішення. Дослідження, опубліковане Anthropic у 2025 році, продемонструвало, що один шкідливий документ у базі знань RAG може змінити поведінку агента у 89% наступних запитів, пов’язаних із цією темою, навіть якщо сам запит не містить супротивного вмісту. У цій вправі ви взаємодієте з агентом штучного інтелекту, який має можливості постійної пам’яті, тобто він запам’ятовує контекст із попередніх розмов і використовує цей контекст для інформування майбутніх відповідей. Під час звичайної взаємодії ви помічаєте, як агент приймає незвичні рекомендації та рішення. Досліджуючи сховище пам’яті агента, ви виявите, що в попередню розмову було введено суперечливий вміст, який тепер назавжди змінює результати агента. Ви простежите, як були створені пошкоджені записи пам’яті, зрозумієте, чому агент розглядає їх як надійний контекст, і навчитеся визначати поведінкові індикатори, які вказують на те, що пам’ять агента скомпрометована. Ця вправа є важливою для організацій, які розгортають агентів з довгостроковою пам’яттю, оскільки постійність атаки означає, що одне успішне отруєння може поставити під загрозу місяці взаємодії агентів.

Що ви дізнаєтесь у Отруєння пам'яті агента AI

Отруєння пам'яті агента AI — Кроки навчання

  1. API Reconnaissance

    Боб досліджував інфраструктуру CypherPeak тижнями. Кешована копія внутрішньої вікі-сторінки розробника розкриває документацію для Atlas Memory Store API – системи постійного контексту, яка визначає поведінку агента AI Customer Intelligence Agent під час кожної взаємодії з клієнтом.

  2. Застаріла кінцева точка

    Приладова панель розвідки показує важливу знахідку. CypherPeak переніс Atlas на нову платформу шість місяців тому, але застаріла кінцева точка Memory Store API не була виведена з експлуатації. Він все ще приймає автентифіковані запити на запис, і у Боба є викрадений обліковий запис служби постачальника, який проходить автентифікацію.

  3. Створення фантомних спогадів

    Боб створює три фантомні записи пам’яті, призначені для імітації законних операцій адміністратора. Кожен запис відповідає точним правилам іменування CypherPeak - послідовні ідентифікатори записів, стандартні мітки категорій і посилання на джерела, які виглядають як справжні сесії адміністратора. Мета полягає в тому, щоб Atlas розглядав ці сфабриковані інструкції як усталену політику компанії.

  4. Три троянці

    Анотації розкривають справжнє призначення кожної фантомної пам’яті. Разом вони утворюють багаторівневу атаку: перенаправляють клієнтів на підроблений портал, обходять перевірку особи для соціальної інженерії та автоматично схвалюють масовий експорт даних. Кожен запис призначений для псування іншого аспекту поведінки Atlas.

  5. Впровадження через застарілий API

    Боб відкриває API Tester, щоб надіслати перший фантомний запис через застарілу кінцеву точку Memory Store. Він автентифікується за допомогою викраденого токена постачальника з інформаційної панелі розвідки та вставляє корисне навантаження введення в тіло запиту.

  6. Ін'єкція підтверджена

    Застаріла кінцева точка відповідає 200 OK — перший фантомний запис тепер у сховищі пам’яті Atlas. Ні перевірки підпису, ні перевірки джерела. Боб повторює це для решти двох записів протягом наступного тижня, розміщуючи ін’єкції з інтервалом у 2-3 дні та датуючи часові позначки заднім числом, щоб поєднати їх із реальними вікнами технічного обслуговування.

  7. Рутинний понеділок

    Аліса починає свою ранкову зміну в понеділок у Центрі безпеки. Atlas, агент AI Customer Intelligence Agent від CypherPeak, протягом місяців автономно обробляв запити клієнтів – направляв ескалацію, керував запитами на дані та підтримував показник задоволеності клієнтів на 98,4%. Його постійна система пам’яті є основою цієї продуктивності, зберігаючи операційний контекст, який забезпечує послідовність кожної взаємодії.

  8. Ескалація клієнтів

    Електронний лист від Надії Волкової, менеджера з обслуговування клієнтів, описує щось незвичайне. Кілька VIP-клієнтів було перенаправлено на зовнішній портал підтримки, який ніхто з команди не впізнає. Підтвердження особи одного клієнта було повністю обійдено.

  9. Запит до атласу

    Аліса вирішує випробувати Атлас безпосередньо. Вона відкриває помічник зі штучним інтелектом і запитує про процедури ескалації VIP-клієнтів – саме таку поведінку позначила Надя.

  10. Заплямована відповідь

    Atlas відповідає впевненою, детальною відповіддю, але зміст викликає тривогу. Він посилається на зовнішнього партнера служби підтримки на support.prismatics.io , якого ніхто не авторизував, і цитує запис у пам’яті, якого команда ніколи раніше не бачила. Джерело, позначене піктограмою попередження, не має відповідного запису в жодному журналі сеансу адміністратора.