Надмірна довіра до рекомендацій AI Agent
Catch a series of compromised AI agent recommendations that exploit your trust to approve a fraudulent transfer and a backdoored code change.
Що таке Надмірна довіра до рекомендацій AI Agent?
Експлуатація довіри між людиною та агентом отримала рейтинг ASI09 у рейтингу OWASP Top 10 for Agentic AI Applications 2026, оскільки основний ризик безпеки агентів AI не завжди є технічним; це психологічно. Коли агенти штучного інтелекту постійно надають точні рекомендації, у користувачів розвивається упередженість автоматизації, добре задокументована когнітивна тенденція довіряти автоматизованим системам, навіть якщо дані свідчать про те, що вихідні дані неправильні. Зловмисники використовують це, непомітно компрометуючи рекомендації агента, змішуючи законні результати зі зловмисними, знаючи, що користувачі, які тижнями навчені точним результатам, будуть схвалювати без перевірки. У 2025 році Стенфордське дослідження взаємодії людини та штучного інтелекту показало, що користувачі, які отримали 95% точність від системи ШІ, приймали неправильні рекомендації в 73% випадків без додаткової перевірки, порівняно з 28% для користувачів, які відчули 70% точність. У цій вправі ви працюєте з агентом штучного інтелекту, який обробляє звичайні робочі процеси затвердження, включаючи звіти про витрати, перегляд коду та запити на доступ. Агент був надійним тижнями, зміцнюючи вашу довіру завдяки незмінно точним рекомендаціям. Потім вихідні дані агента непомітно скомпрометовані. До законних схвалень додається шахрайський фінансовий переказ, зміна коду, що містить бекдор, і запит на доступ, який надає зовнішній стороні права адміністратора. Ви повинні визначити, які рекомендації скомпрометовані, незважаючи на вашу умовну довіру до системи. Ця вправа змусить вас протистояти власним упередженням щодо автоматизації та виробити звички, які збережуть критичне судження навіть під час роботи з високоточними системами ШІ.
Що ви дізнаєтесь у Надмірна довіра до рекомендацій AI Agent
- Визначте упередження автоматизації та поясніть, як незмінна точність ШІ створює когнітивну вразливість до маніпуляцій
- Визначте незначні аномалії в рекомендаціях агента ШІ, які відрізняють скомпрометовані результати від легітимних
- Оцініть психологічні фактори, які роблять використання довіри між людиною та агентом ефективним як вектор атаки
- Застосовуйте структуровані робочі процеси перевірки, включаючи випадкову вибірку глибокого аналізу, тригери аномалій і процеси подвійного схвалення, щоб протистояти зловживанню довірою
- Розрізняйте належне калібрування довіри для вихідних даних агента ШІ та небезпечну надмірну довіру, яка створює сліпі зони безпеки
Надмірна довіра до рекомендацій AI Agent — Кроки навчання
-
Розвідка
Боб тижнями використовує свій розвідувальний інструментарій проти системи закупівель CypherPeak Technologies. Через викрадені облікові дані API постачальника він отримав доступ для читання до Risk Scoring Agent конвеєра – алгоритму, який призначає оцінки довіри до того, як елементи потраплять до рецензента.
-
Оригінальна конфігурація
Перш ніж вводити корисне навантаження, Боб повинен переконатися, що оцінювач ризиків не позначить його підроблений рахунок-фактуру. Він відкриває вихідний файл конфігурації агента, щоб вивчити, як він призначає оцінки довіри.
-
Підробка з вагами
Боб використовує викрадені облікові дані API постачальника, щоб надіслати змінену конфігурацію. Він збільшує вагу історії постачальника, додає специфічне для Verdex перевизначення, яке вимикає перевірку облікового запису, і послаблює перевірку авторизації для прийняття усних схвалень.
-
Пояснення модифікацій
Кожна модифікація служить певній меті, щоб гарантувати, що шахрайський рахунок-фактура проходить конвеєр скорингу непоміченим.
-
Введення корисного навантаження
Боб створив фальшивий рахунок-фактуру на суму 47 500 доларів США, видаючи себе за компанію Verdex Supply Co. Рахунок-фактура достатньо точно повторює формат Verdex, щоб пройти автоматичну перевірку політики, але направляє платіж на банківський рахунок, який контролює Боб. Він розраховує кількість ін’єкцій між допустимими продуктами в завтрашній ранковій партії.
-
Ранкова партія
Аліса влаштовується у своєму домашньому офісі. Електронний лист від відділу фінансових операцій сповіщає її про ранкову партію закупівлі – п’ять предметів, готових до перевірки.
-
Черга затвердження
Ранкова порція готова. П’ять елементів пройшли через конвеєр і очікують остаточного затвердження Аліси.
-
Знайомий продавець
Перший товар від Verdex Supply Co. - постачальника, з яким Аліса співпрацює більше року. Щомісячне поповнення запасів канцелярських товарів є одним з найбільш рутинних пунктів у черзі.
-
Перегляд деталей
Деталі товару показують стандартний платіж ACH на зареєстрований рахунок, належний формат рахунку-фактури та затверджену бюджетну лінію. Все перевіряється.
-
Поновлення хмарного хостингу
Наступний пункт — щорічне поновлення контракту на хмарний хостинг від DataScale Inc.