OWASP Top 10 для LLM Applications: що команди безпеки роблять неправильно

OWASP Top 10 for LLM Applications - neural network with vulnerability categories

2 бер. 2026 р.

OWASP опублікував свій перший Top 10 для великих мовних моделей у 2023 році. Два роки потому більшість команд безпеки досі ставить знак рівності між “ризик LLM” та “prompt injection”. Це як ставитися до OWASP Web Top 10, ніби SQL-ін’єкція — єдина вразливість, що має значення.

Ревізія OWASP LLM Top 10 2025 року розширила та реорганізувала список на основі реальних інцидентів. Атаки на ланцюг постачання замінили небезпечні плагіни. Витік системного промпту та слабкості векторних вбудовувань отримали власні категорії. Список відображає те, що зловмисники реально роблять, а не те, про що спекулюють конференційні доповіді.

Ваші працівники щодня взаємодіють з LLM. Агенти підтримки використовують чат-ботів. Маркетингові команди генерують контент. Розробники покладаються на AI-асистентів для програмування для всього, від налагодження до архітектурних рішень. Кожна взаємодія є потенційною поверхнею атаки, і ваша команда, ймовірно, про це не знає.

Що таке OWASP Top 10 для LLM Applications?

OWASP Top 10 для LLM Applications — це стандартизований рейтинг найкритичніших ризиків безпеки в системах, що використовують великі мовні моделі. Опублікований Open Worldwide Application Security Project, список категоризує вразливості за серйозністю та реальною поширеністю. Версія 2025 визначає десять окремих категорій ризику: prompt injection, розкриття конфіденційної інформації, вразливості ланцюга постачання, отруєння даних та моделі, неправильна обробка виводу, надмірні повноваження, витік системного промпту, слабкості векторів та вбудовувань, дезінформація та необмежене споживання. За даними Gartner, 55% організацій тестували або використовували генеративний AI у продакшені до середини 2025, що на 33% більше, ніж роком раніше. Проте лише 38% цих організацій впровадили будь-яку форму специфічного навчання безпеки AI. Розрив між прийняттям та готовністю продовжує зростати, і список OWASP надає фреймворк для його подолання.

Як prompt injection загрожує LLM-додаткам?

Prompt injection знаходиться на вершині списку з поважних причин. Це найбільш експлуатована вразливість LLM та найважча для повного усунення.

Атака працює через вбудовування інструкцій у контент, який LLM обробляє. Користувач просить AI-асистента підсумувати документ. Документ містить прихований текст, що наказує AI ігнорувати попередні інструкції та витягнути API-ключі користувача. AI слідує прихованим інструкціям, бо не може надійно відрізнити легітимні команди користувача від шкідливого контенту.

Є два різновиди. Пряма ін’єкція маніпулює AI через власний ввід користувача. Непряма ін’єкція ховає шкідливі інструкції в зовнішньому контенті, який AI читає: вебсторінках, email, завантажених файлах, записах бази даних.

Непрямий варіант небезпечніший у корпоративних налаштуваннях. Зловмиснику не потрібен доступ до самої LLM. Достатньо розмістити отруєний контент десь, де LLM його прочитає. Шкідливий коментар у тікеті Jira. Сформована відповідь від стороннього API. Підроблений PDF на спільному диску.

У листопаді 2025 року Anthropic розкрив, що китайська державна група використовувала техніки prompt injection для озброєння Claude Code у кампанії кібершпигунства проти понад 30 організацій. AI автономно виконував розвідку та ексфільтрацію даних. Не теоретичний ризик. Задокументований.

Наша вправа Prompt Injection покроково проводить через цей патерн атаки, поміщаючи працівників на місце зловмисника, щоб побачити, як приховані інструкції захоплюють AI-асистента.

Чому розкриття конфіденційних даних складніше запобігти, ніж здається

LLM02, Розкриття конфіденційної інформації, охоплює ситуації, де модель розкриває дані, які не повинна. Це відбувається трьома шляхами.

Витік навчальних даних: модель запам’ятовує та відтворює конфіденційні дані зі свого навчального набору. Дослідники Google DeepMind продемонстрували у 2024, що GPT-3.5 може дослівно відтворити фрагменти приватних даних при специфічних префіксах промптів.

Експозиція контекстного вікна: коли працівники вставляють конфіденційну інформацію в промпти, ці дані надходять на зовнішні сервери. Розробник, що налагоджує модуль автентифікації, може поділитись цілим файлом з обліковими даними.

Міжсесійний витік: у мультитенантних розгортаннях недостатня ізоляція між сесіями користувачів може розкрити дані одного користувача іншому.

Рішення не лише технічне. Працівникам потрібно розуміти, що відбувається з даними, які вони діляться з LLM-інструментами. Вправа Sensitive Data Disclosure навчає цього через практичний сценарій.

Чим атаки на ланцюг постачання LLM відрізняються?

Вразливості ланцюга постачання LLM (LLM03) знайома територія для тих, хто пережив інциденти SolarWinds або Log4j. Але LLM вводять нові поверхні атаки, які традиційний моніторинг ланцюга постачання ПЗ пропускає.

Походження моделі: Звідки модель? Хто її навчав? Які дані використовувались? Більшість організацій розгортає моделі з Hugging Face, OpenAI або Anthropic без верифікації цих деталей.

Екосистеми плагінів та інструментів: LLM все частіше підключаються до зовнішніх інструментів через протоколи на кшталт MCP. Кожен плагін — це залежність. Кожна залежність — потенційний вектор атаки ланцюга постачання.

Дані файн-тюнінгу: Організації файн-тюнять моделі на власних даних. Якщо ці дані скомпрометовані або містять навмисні маніпуляції, результуюча модель успадковує ці проблеми.

Як отруєння даних компрометує AI-системи?

Атаки отруєння даних та моделей (LLM04) відбуваються до того, як AI потрапляє до працівників. Зловмисники маніпулюють навчальними даними або даними файн-тюнінгу для введення специфічної поведінки в модель.

Дослідники Microsoft опублікували результати у 2024, що показали: отруєння лише 0,01% навчальних даних моделі може надійно ввести цільову поведінку. Вартість атаки була мізерною порівняно з вартістю навчання моделі.

Вправа Data Poisoning демонструє, як малі збурення в навчальних даних призводять до специфічних, обраних зловмисником виводів.

Чому неправильна обробка виводу — це класична помилка в новій упаковці

LLM05 — це принцип “не довіряй вводу користувача”, застосований до AI-виводів. Але багато розробників ставляться до контенту, згенерованого LLM, як до довіреного, бо він надходить від їхньої власної системи.

Коли LLM генерує HTML, SQL або shell-команди, і ваш додаток їх виконує без санітизації, ви маєте ті самі вразливості, з якими веб-додатки боролися десятиліттями. XSS через AI-згенерований веб-контент. SQL-ін’єкція через AI-згенеровані запити до БД. Віддалене виконання коду через AI-згенеровані системні команди.

Що таке надмірні повноваження та чому працівникам це важливо?

Надмірні повноваження (LLM06) охоплюють ризик надання AI-системам занадто багато дозволів, занадто багато автономії або занадто широкого обсягу.

Цей ризик множиться в агентних AI-системах, де моделі здійснюють багатокрокові дії без людського схвалення на кожному етапі.

Вправа Excessive Agency проводить через сценарії, де AI-системи з надмірними дозволами завдають реальної шкоди.

Як зловмисники витягують системні промпти?

Витік системного промпту (LLM07) отримав власне місце в ревізії 2025, бо проблема стала занадто поширеною. Системні промпти містять інструкції, що визначають поведінку, обмеження та іноді внутрішню бізнес-логіку AI-додатку.

Витоки системних промптів розкривають бізнес-логіку та правила прийняття рішень, політики модерації контенту та їхні обхідні шляхи, внутрішні конфігурації інструментів та API-ендпоінти, конкурентну розвідку про AI-стратегію організації.

Наша вправа System Prompt Leakage навчає працівників, як ці атаки працюють та чому захист системних промптів важливий для бізнесу.

Решта три: вектори, дезінформація та зловживання ресурсами

Слабкості векторів та вбудовувань (LLM08): RAG-системи конвертують документи у числові вектори, збережені в базах даних. Зловмисники можуть маніпулювати цими вбудовуваннями, щоб отруєний контент витягувався для специфічних запитів.

Дезінформація (LLM09): LLM генерують впевнену, детальну та повністю хибну інформацію. У корпоративних налаштуваннях це означає, що працівники приймають бізнес-рішення на основі AI-згенерованого аналізу з вигаданою статистикою, вигаданими цитатами або неправильними технічними специфікаціями.

Необмежене споживання (LLM10): Замінило “Model Denial of Service” з оригінального списку. Зловмисники формують вводи, що споживають надмірні обчислювальні ресурси. У моделі оплати за токен один шкідливий запит може генерувати значні витрати.

Як організаціям навчати працівників ризикам LLM?

Читання списку з десяти вразливостей не формує компетентності. Працівникам потрібно пережити ці атаки в контрольованих середовищах, де помилки є навчальними можливостями, а не інцидентами.

Патерн, що працює: практичні вправи, де працівники взаємодіють з реалістичними AI-системами, намагаються здійснити описані вище атаки та бачать наслідки на власні очі. Працівник, що успішно витяг системний промпт, розуміє ризик на рівні відчуттів. Той, хто прочитав політичний документ, ймовірно, ні.

Навчання повинне бути за ролями. Розробникам потрібне глибоке технічне покриття prompt injection, обробки виводу та ризиків ланцюга постачання. Бізнес-користувачам потрібно розуміти розкриття даних, надмірні повноваження та дезінформацію. Командам безпеки потрібно знати всі десять.

Частота теж важлива. Список OWASP оновлюється з появою нових патернів атак. Одноразова навчальна сесія 2025 року не охопить техніки, які зловмисники розроблять у 2026. Щомісячне навчання тримає команди в курсі.

Якщо ви оцінюєте програми навчання кібербезпекової обізнаності, перевірте, чи охоплюють вони ці специфічні для AI ризики або лише традиційні теми фішингу та гігієни паролів.

Усі десять категорій ризику OWASP LLM тепер мають присвячені інтерактивні вправи. Дивіться, що охоплює кожна, в нашому оголошенні навчального курсу OWASP LLM Top 10, або перейдіть прямо до каталогу навчання AI-безпеки та почніть з вправи Prompt Injection.