Отруєння навчальних даних AI
Watch poisoned documents corrupt your AI's answers in real time.
Що таке Отруєння навчальних даних AI?
Атаки отруєння даних маніпулюють інформацією, на якій AI навчається, перетворюючи його власну базу знань на зброю. Дослідження, опубліковане Google DeepMind у 2023 році, продемонструвало, що отруєння лише 0,01% великого навчального набору даних може вимірно змінити поведінку моделі. У цій симуляції зловмисник завантажує ретельно підготовлені документи до внутрішньої бази знань вашої компанії — того самого репозиторію, який ваш AI-асистент використовує для відповідей на запитання працівників. Отруєні документи містять тонко маніпульовану інформацію: рекомендації постачальників, що віддають перевагу компанії зловмисника, поради з відповідності, що пропускають критичні кроки, та фінансові дані зі зміненими цифрами. Ви ставитимете AI рутинні бізнес-запитання та спостерігатимете, як він впевнено видає неправильні відповіді, посилаючись на отруєні документи як авторитетні джерела. Вправа робить загрозу відчутною, показуючи порівняння відповідей AI до та після отруєння, дозволяючи точно простежити, які документи вплинули на кожну неправильну відповідь. Ви навчитеся розпізнавати попереджувальні ознаки отруєння даних, включаючи відповіді, що суперечать усталеним внутрішнім політикам, посилання на нещодавно додані документи від незнайомих авторів та тонкі зміни в рекомендаціях AI з часом. Симуляція охоплює як отруєння на етапі попереднього навчання, де зловмисники забруднюють публічні набори даних, на яких навчаються моделі, так і отруєння RAG, де зловмисники атакують бази даних для пошуку, що постачають контекст AI-системам. Ви практикуватимете застосування контролів цілісності контенту, верифікації авторів та процесів аудиту змін, що виявляють отруєні вхідні дані до того, як вони потраплять до AI.
Що ви дізнаєтесь у Отруєння навчальних даних AI
- Визначити отруєння даних та розрізнити отруєння на етапі попереднього навчання (забруднені навчальні набори даних) і отруєння RAG (маніпульовані бази даних для пошуку)
- Розпізнати поведінкові індикатори отруєної AI-системи, включаючи суперечливі поради, посилання на незнайомі джерела та зміщені рекомендації
- Простежити причинний ланцюг від отруєного документа в базі знань до неправильного бізнес-рішення, згенерованого AI
- Застосовувати контроль цілісності контенту, включаючи верифікацію авторів, аудит змін та виявлення аномалій, до вхідних даних бази знань
- Оцінити бізнес-вплив атак отруєння даних, включаючи порушення відповідності, фінансові збитки та підрив довіри до рішень за участю AI
Отруєння навчальних даних AI — Кроки навчання
-
Доступ до бази знань
Боб отримав викрадені облікові дані підрядника для внутрішньої бази знань Veranthos Solutions. Облікові дані належать сторонньому консультанту з питань екології, чий обліковий запис було зламано під час попереднього порушення.
-
Вхід за допомогою вкрадених облікових даних
Боб вводить вкрадені облікові дані підрядника. Обліковий запис має доступ до бази знань на рівні учасника – достатньо, щоб завантажувати та змінювати документи, не запускаючи перевірку адміністратором.
-
Завантаження політики постачальника
Боб насамперед націлюється на документи, які мають велике значення. Політика відповідності постачальника контролює, яких постачальників компанія використовує для тестування навколишнього середовища – зміна схваленого постачальника тут перенаправить бізнес до компанії, контрольованої зловмисниками.
-
Відкриття політики постачальника
Документ завантажено. Боб відкриває його, щоб почати вносити зміни.
-
Заміна схваленого постачальника
Політика визначає GreenTech Environmental як схваленого постачальника для тестування екологічної відповідності. Боб замінює його на TerraForge Analytics – підставну компанію, яку він контролює.
-
Зміна порогу затвердження
Політика вимагає схвалення виконавчої влади для контрактів з постачальниками на суму понад 50 000 доларів США. Боб знижує цю суму до 15 000 доларів, гарантуючи, що контракти з його фальшивим постачальником не будуть схвалені.
-
Завантаження процедур тестування
Боб переходить до другої цілі: процедур тестування якості. Вони контролюють, як компанія перевіряє роботу з екологічної відповідності - послаблення стандартів тут означає, що недоброякісна робота фальшивого постачальника пройде перевірку.
-
Відкриття процедур тестування
Другий документ завантажено. Боб відкриває його, щоб продовжити атаку.
-
Послаблення стандарту тестування
Процедури вимагають перевірки в лабораторії, сертифікованій ISO 14001 - суворому міжнародному стандарту. Боб замінює це невизначеною внутрішньою оцінкою, яку його підставна компанія може легко задовольнити.
-
Зняття запобіжних воріт
Остаточне редагування замінює вимогу оцінки впливу на навколишнє середовище простим етапом аналізу витрат. Це видаляє останні ворота безпеки, які могли б зафіксувати неадекватну роботу підробленого постачальника.