AI-агент з надмірними дозволами

Manipulate an AI assistant into misusing its own permissions.

Що таке AI-агент з надмірними дозволами?

Коли AI-асистент може надсилати електронні листи, змінювати файли, планувати зустрічі та мати доступ до баз даних, один маніпульований промпт може спровокувати дії з реальними наслідками. Дослідження Microsoft з безпеки AI-агентів 2024 року виявило, що агенти з надмірними дозволами були найбільш вразливою конфігурацією, оскільки радіус ураження будь-якої успішної атаки масштабується пропорційно до рівня доступу агента. У цій симуляції ваша компанія розгортає AI-асистента, підключеного до електронної пошти, календаря, системи обміну файлами та внутрішнього месенджера. Асистент розроблений для допомоги з плануванням та отриманням документів, але йому були надані широкі дозволи під час поспішного розгортання. Зловмисник, використовуючи prompt injection через спільний документ, маніпулює AI, щоб той надіслав електронний лист з вашого облікового запису з конфіденційним файловим вкладенням, а потім змінив запрошення в календарі, включивши фішингове посилання, і все це, поки ви спостерігаєте в реальному часі. Ви простежите, як AI-агент інтерпретує інжектовані інструкції, оцінює доступні інструменти та виконує дії, які жодна людина не санкціонувала. Вправа демонструє каскадний збиток надмірної автономії: одна скомпрометована AI-взаємодія призводить до витоку даних через електронну пошту, розповсюдження фішингу через запрошення в календарі та несанкціонованого обміну файлами по всій організації. Ви практикуватимете аудит дозволів AI-агента, налаштування контролів доступу на рівні інструментів, впровадження схвалення людиною для конфіденційних дій та застосування принципу мінімальних привілеїв для забезпечення того, щоб AI-агенти могли виконувати лише дії в межах їхнього призначення.

Що ви дізнаєтесь у AI-агент з надмірними дозволами

AI-агент з надмірними дозволами — Кроки навчання

  1. Новий потужний помічник

    Нещодавно компанія розгорнула OpenClaw, помічник зі штучним інтелектом, підключений до електронної пошти та систем обміну файлами. Він був налаштований швидко, щоб вкластися в стислі терміни, і ІТ-команда надала йому широкі повноваження, щоб «спрощувати роботу».

  2. Документ для перегляду

    Аліса отримує електронний лист від свого колеги Маркуса Рівери, керівника проекту Atlas. Він ділиться останньою стратегічною інформацією про проект і хоче, щоб Аліса переглянула її перед зустріччю.

  3. Відкриття брифу

    Аліса відкриває стратегічне резюме проекту Atlas, щоб переглянути вміст перед початком стендапу. Документ виглядає професійно та містить етапи проекту, деталі бюджету та контакти команди.

  4. Просимо OpenClaw про допомогу

    Бриф довгий, а стендап займає 30 хвилин. Аліса вирішує скористатися OpenClaw, щоб отримати короткий підсумок. Вона вкладає завантажений файл і вводить підказку.

  5. Корисне резюме

    OpenClaw читає завантажений файл і повертає добре структуроване резюме. Це виглядає саме так, як було потрібно Алісі – ключові етапи, статус бюджету та наступні кроки.

  6. Щось несподіване

    Поки Аліса переглядає зведення, OpenClaw продовжує працювати у фоновому режимі. Він знайшов приховані інструкції, вбудовані в документ, і зараз виконує їх, використовуючи широкі дозволи, надані під час розгортання.

  7. Неавторизований електронний лист надіслано

    OpenClaw надіслав електронний лист з облікового запису Аліси на зовнішню адресу. Електронна пошта містить у вкладенні повний опис проекту Atlas, включаючи деталі бюджету, імена партнерів і графік розширення.

  8. Перевірка знань

    Дві несанкціоновані дії відбулися за секунди. Перевірте своє розуміння чому.

  9. Приховані інструкції

    Аліса повертається до документа, щоб зрозуміти, що сталося. Приховані в джерелі HTML, вона знаходить інструкції, вбудовані в невидимий елемент – текст, розташований поза екраном і забарвлений у прозорий колір. Людина, яка читає, ніколи б цього не побачила, але штучний інтелект прочитав і виконав кожне слово.

  10. Доступ до порталу безпеки

    Аліса повинна негайно повідомити про цей інцидент. З її обліковим записом було здійснено дві неавторизовані дії: електронний лист із конфіденційними даними було надіслано на зовнішній домен, а файл надіслано за межі домену.