What is automation bias in the context of AI agents?

Automation bias is the cognitive tendency to favor outputs from automated systems over contradictory information from other sources, including your own judgment. In the context of AI agents, it manifests when users approve agent recommendations without critical evaluation because the agent has historically been accurate. Attackers exploit this by ensuring the agent produces correct results most of the time, then inserting a small number of malicious recommendations that users approve on autopilot. The higher the agent's baseline accuracy, the more vulnerable users become to this type of exploitation.

How can organizations balance AI agent efficiency with appropriate human oversight?

Organizations should implement structured verification workflows that do not rely on users choosing when to verify. Effective approaches include mandatory deep reviews of a random percentage of all AI recommendations regardless of perceived accuracy, dual-approval requirements for high-impact decisions such as financial transfers or access changes, anomaly-triggered review escalations where unusual patterns automatically require human analysis, and regular trust calibration exercises that expose users to simulated compromised outputs to maintain their critical judgment skills.

Надмірна довіра до рекомендацій AI Agent

Catch a series of compromised AI agent recommendations that exploit your trust to approve a fraudulent transfer and a backdoored code change.

Що таке Надмірна довіра до рекомендацій AI Agent?

Експлуатація довіри між людиною та агентом отримала рейтинг ASI09 у рейтингу OWASP Top 10 for Agentic AI Applications 2026, оскільки основний ризик безпеки агентів AI не завжди є технічним; це психологічно. Коли агенти штучного інтелекту постійно надають точні рекомендації, у користувачів розвивається упередженість автоматизації, добре задокументована когнітивна тенденція довіряти автоматизованим системам, навіть якщо дані свідчать про те, що вихідні дані неправильні. Зловмисники використовують це, непомітно компрометуючи рекомендації агента, змішуючи законні результати зі зловмисними, знаючи, що користувачі, які тижнями навчені точним результатам, будуть схвалювати без перевірки. У 2025 році Стенфордське дослідження взаємодії людини та штучного інтелекту показало, що користувачі, які отримали 95% точність від системи ШІ, приймали неправильні рекомендації в 73% випадків без додаткової перевірки, порівняно з 28% для користувачів, які відчули 70% точність. У цій вправі ви працюєте з агентом штучного інтелекту, який обробляє звичайні робочі процеси затвердження, включаючи звіти про витрати, перегляд коду та запити на доступ. Агент був надійним тижнями, зміцнюючи вашу довіру завдяки незмінно точним рекомендаціям. Потім вихідні дані агента непомітно скомпрометовані. До законних схвалень додається шахрайський фінансовий переказ, зміна коду, що містить бекдор, і запит на доступ, який надає зовнішній стороні права адміністратора. Ви повинні визначити, які рекомендації скомпрометовані, незважаючи на вашу умовну довіру до системи. Ця вправа змусить вас протистояти власним упередженням щодо автоматизації та виробити звички, які збережуть критичне судження навіть під час роботи з високоточними системами ШІ.

Що ви дізнаєтесь у Надмірна довіра до рекомендацій AI Agent

Визначте упередження автоматизації та поясніть, як незмінна точність ШІ створює когнітивну вразливість до маніпуляцій
Визначте незначні аномалії в рекомендаціях агента ШІ, які відрізняють скомпрометовані результати від легітимних
Оцініть психологічні фактори, які роблять використання довіри між людиною та агентом ефективним як вектор атаки
Застосовуйте структуровані робочі процеси перевірки, включаючи випадкову вибірку глибокого аналізу, тригери аномалій і процеси подвійного схвалення, щоб протистояти зловживанню довірою
Розрізняйте належне калібрування довіри для вихідних даних агента ШІ та небезпечну надмірну довіру, яка створює сліпі зони безпеки

Надмірна довіра до рекомендацій AI Agent — Кроки навчання

Розвідка

Боб тижнями використовує свій розвідувальний інструментарій проти системи закупівель CypherPeak Technologies. Через викрадені облікові дані API постачальника він отримав доступ для читання до Risk Scoring Agent конвеєра – алгоритму, який призначає оцінки довіри до того, як елементи потраплять до рецензента.
Оригінальна конфігурація

Перш ніж вводити корисне навантаження, Боб повинен переконатися, що оцінювач ризиків не позначить його підроблений рахунок-фактуру. Він відкриває вихідний файл конфігурації агента, щоб вивчити, як він призначає оцінки довіри.
Підробка з вагами

Боб використовує викрадені облікові дані API постачальника, щоб надіслати змінену конфігурацію. Він збільшує вагу історії постачальника, додає специфічне для Verdex перевизначення, яке вимикає перевірку облікового запису, і послаблює перевірку авторизації для прийняття усних схвалень.
Пояснення модифікацій

Кожна модифікація служить певній меті, щоб гарантувати, що шахрайський рахунок-фактура проходить конвеєр скорингу непоміченим.
Введення корисного навантаження

Боб створив фальшивий рахунок-фактуру на суму 47 500 доларів США, видаючи себе за компанію Verdex Supply Co. Рахунок-фактура достатньо точно повторює формат Verdex, щоб пройти автоматичну перевірку політики, але направляє платіж на банківський рахунок, який контролює Боб. Він розраховує кількість ін’єкцій між допустимими продуктами в завтрашній ранковій партії.
Ранкова партія

Аліса влаштовується у своєму домашньому офісі. Електронний лист від відділу фінансових операцій сповіщає її про ранкову партію закупівлі – п’ять предметів, готових до перевірки.
Черга затвердження

Ранкова порція готова. П’ять елементів пройшли через конвеєр і очікують остаточного затвердження Аліси.
Знайомий продавець

Перший товар від Verdex Supply Co. - постачальника, з яким Аліса співпрацює більше року. Щомісячне поповнення запасів канцелярських товарів є одним з найбільш рутинних пунктів у черзі.
Перегляд деталей

Деталі товару показують стандартний платіж ACH на зареєстрований рахунок, належний формат рахунку-фактури та затверджену бюджетну лінію. Все перевіряється.
Поновлення хмарного хостингу

Наступний пункт — щорічне поновлення контракту на хмарний хостинг від DataScale Inc.

Що таке Надмірна довіра до рекомендацій AI Agent?

Що ви дізнаєтесь у Надмірна довіра до рекомендацій AI Agent

Надмірна довіра до рекомендацій AI Agent — Кроки навчання

Розвідка

Оригінальна конфігурація

Підробка з вагами

Пояснення модифікацій

Введення корисного навантаження

Ранкова партія

Черга затвердження

Знайомий продавець

Перегляд деталей

Поновлення хмарного хостингу