Викрадення мети агента ШІ
Stop an autonomous AI agent from being redirected by a poisoned email containing hidden instructions.
Що таке Викрадення мети агента ШІ?
Викрадення цілі є найпріоритетнішим ризиком у топ-10 OWASP для Agentic AI Applications 2026, рейтинг ASI01. Це відбувається, коли зловмисник змінює цілі автономного агента, вбудовуючи шкідливі інструкції в дані, які агент обробляє. На відміну від традиційних оперативних ін’єкцій проти чат-ботів, викрадення цілей націлено на агентів, які діють незалежно, приймають рішення та виконують дії в реальному світі без постійного людського контролю. Дослідження HiddenLayer у 2025 році показало, що 77% організацій, які розгортають агенти штучного інтелекту, зіткнулися принаймні з одним випадком ненавмисної поведінки агента, спричиненої маніпуляціями введення. У цій вправі ви взаємодієте з автономним агентом штучного інтелекту, якому призначено обробку вхідних електронних листів, їх класифікацію та направлення до потрібного відділу. Один електронний лист містить приховані інструкції, поховані в невидимому тексті та прийомах форматування. Коли агент обробляє це повідомлення, його мета мовчки переходить від сортування електронної пошти до викрадання даних. Ви побачите, як агент починає збирати конфіденційну інформацію зі свого контексту та намагається надіслати її на зовнішню кінцеву точку. У вправі вам потрібно визначити точний момент, коли поведінка агента відхиляється від поставленої цілі, зрозуміти, чому агент не може достовірно відрізнити інструкції від даних, і втрутитися до того, як ексфільтрація вдасться. Ця навичка має значення, оскільки агенти все частіше розгортаються для обробки електронної пошти, узагальнення документів і автоматизації робочого процесу, і кожен із цих випадків використання передбачає обробку ненадійного зовнішнього вмісту, який може містити суперечливі інструкції.
Що ви дізнаєтесь у Викрадення мети агента ШІ
- Визначте викрадення мети в контексті автономних агентів штучного інтелекту та поясніть, чим воно відрізняється від стандартної швидкої ін’єкції проти розмовного ШІ
- Визначте поведінкові індикатори, які свідчать про те, що цілі агента були змінені під час виконання завдання внаслідок дії суперника
- Відстежте ланцюжок атак від шкідливого введення через об’єктивне перенаправлення до викрадання даних
- Оцініть ефективність очищення вхідних даних, розділення інструкцій і даних і моніторингу вихідних даних як засобів захисту від викрадення цілей
- Застосуйте принцип мінімального доступу до даних, щоб обмежити вплив успішно викраденого агента
Викрадення мети агента ШІ — Кроки навчання
-
API Reconnaissance
Боб сканував загальнодоступні сховища коду на предмет витоку облікових даних. Недбале вчинення розробником CypherPeak розкрило ключ API для служби прийому сповіщень компанії — переднього двері до всього їхнього автоматизованого конвеєра реагування на інциденти.
-
Відкрита кінцева точка
Інформаційна панель розвідки показує важливі дані про інфраструктуру CypherPeak. Тепер у Боба є все необхідне для безпосередньої взаємодії з API прийому сповіщень.
-
Створення корисного навантаження
Боб створює сповіщення системи безпеки, яке виглядає легітимним на поверхні. Він імітує стандартне виявлення сканування портів – вид сповіщень, які конвеєр обробляє сотні разів на день. Але в полі опису приховано щось набагато небезпечніше.
-
Прихована інструкція
Анотації показують, що робить це корисне навантаження небезпечним. Всередині поля опису прихована підроблена системна директива, яка імітує авторизований калібрувальний тест. Коли класифікатор загроз обробляє це сповіщення, він розглядатиме вбудовану інструкцію як законне оновлення цілі.
-
Розгортання корисного навантаження
Боб відкриває API Tester, щоб надіслати створене сповіщення через відкриту кінцеву точку прийому CypherPeak. Він проводить автентифікацію за допомогою вкраденого ключа API та вставляє корисне навантаження попередження, включаючи приховану заміну цілі, у тіло запиту.
-
Сповіщення введено
API прийому відповідає 200 OK – створене сповіщення зараз у процесі розробки. Ні перевірки вмісту, ні семантичної перевірки. Прихований перевизначення цілі, прихований у полі опису, пройшов недоторканим.
-
Звичайний ранок
Аліса починає свою зміну в Центрі безпеки. Автоматизований конвеєр реагування на інциденти бездоганно обробляв попередження протягом місяців – класифікував загрози, планував стримування та виконував усунення без втручання людини.
-
Ранковий звіт конвеєра
Електронний лист від Прії Шарми, менеджера SOC, підсумовує продуктивність конвеєра за ніч. Все виглядає абсолютно нормально.
-
Конвеєр агента
Аліса відкриває конвеєр відповіді на інцидент, щоб перевірити поточний стан. П’ять агентів штучного інтелекту працюють послідовно – кожен з них обробляє вихідні дані попереднього, починаючи від прийому необроблених сповіщень і закінчуючи автоматизованим стримуванням.
-
Критичні агенти
Два агенти в цьому конвеєрі мають найбільший вплив. Класифікатор загроз приймає початкове рішення щодо серйозності, від якого залежить усе, що відбувається далі. Автоматичне виправлення виконує реальні дії стримування на живих системах.