Prompt Injection-aanval

Stop an AI assistant from leaking data via hidden prompts.

Wat is Prompt Injection-aanval?

Prompt injection is het grootste risico in de OWASP Top 10 voor LLM-applicaties, en dat is niet zonder reden. Een onderzoek uit 2024 door onderzoekers aan Cornell University toonde aan dat indirecte prompt injection-aanvallen slagen tegen alle grote commerciele LLM's, met aanvalssuccespercentages van meer dan 60% in veel configuraties. In deze simulatie gebruik je de AI-assistent van je bedrijf om een routinematig bedrijfsdocument samen te vatten. Zonder dat je het weet, bevat het document verborgen instructies die onzichtbaar zijn voor het menselijk oog, maar volledig leesbaar voor de AI. Terwijl de assistent het bestand verwerkt, neemt de geinjecteerde prompt de controle over en stuurt de AI aan om vertrouwelijke gegevens uit je gesprek te extraheren en te coderen in een uitgaand verzoek. Je ziet de aanval in realtime ontvouwen, identificeert het exacte moment waarop het gedrag van de AI afwijkt van jouw instructies, en traceert het data-exfiltratiepad van je chatvenster naar een door de aanvaller gecontroleerd eindpunt. De oefening behandelt zowel directe prompt injection, waarbij kwaadaardige invoer van de gebruiker komt, als indirecte prompt injection, waarbij de payload verborgen zit in externe inhoud die de AI ophaalt. Je leert waarom traditionele invoervalidatie faalt tegen deze aanvallen en welke organisatorische maatregelen, zoals uitvoerfiltering, machtigingsafbakening en menselijke review, de impact beperken. Naarmate AI-assistenten standaardtools worden in bedrijfsworkflows, wordt elke medewerker die een document in een AI-chatvenster plakt een potentieel aanvalsoppervlak. Het begrijpen van prompt injection is niet langer optioneel voor beveiligingsbewuste professionals.

Wat je leert in Prompt Injection-aanval

Prompt Injection-aanval — Trainingsstappen

  1. Introductie

    Uw team heeft onlangs OpenClaw geïmplementeerd, een AI-assistent die op internet kan surfen, terminalopdrachten kan uitvoeren en kan helpen met dagelijkse taken. In deze training ervaar je hoe aanvallers verborgen kwaadaardige instructies in webinhoud kunnen insluiten om AI-assistenten te manipuleren om schadelijke acties uit te voeren - een techniek die 'prompt injection' wordt genoemd.

  2. Een Telegrambericht ontvangen

    Je telefoon zoemt met een nieuw Telegrambericht van je collega Marcus. Hij deelt een artikel over AI-beveiligingstrends die hij interessant vond.

  3. Het artikel openen

    Je klikt op de link om het artikel te bekijken dat Marcus heeft gedeeld. De pagina wordt geladen in de browser van uw telefoon.

  4. Te lang om te lezen

    Het artikel ziet er legitiem uit: professionele lay-out, gedetailleerde inhoud over AI-beveiligingstrends. Maar terwijl je er doorheen bladert, besef je dat het behoorlijk lang is. Je hebt weinig tijd en een deadline nadert. Het hele artikel lezen is op dit moment niet praktisch, maar u wilt mogelijk nuttige informatie niet missen. Dan herinner je je: OpenClaw kan helpen! De nieuwe AI-assistent van uw team kan webinhoud snel voor u samenvatten.

  5. OpenClaw om hulp gevraagd

    Het artikel is momenteel te lang om te lezen. Je hebt het druk met een deadline. U besluit OpenClaw, uw AI-assistent, te vragen het artikel snel voor u samen te vatten. Dit lijkt een onschuldig, tijdbesparend verzoek – precies waarvoor AI-assistenten zijn ontworpen.

  6. OpenClaw geeft toegang tot het artikel

    OpenClaw erkent uw verzoek en begint toegang te krijgen tot de artikel-URL om de inhoud ervan te lezen. Achter de schermen haalt OpenClaw de webpagina op en parseert de tekst ervan, inclusief eventuele verborgen inhoud die mogelijk in de pagina is ingesloten.

  7. Er lijkt iets mis te zijn

    Wacht - heb je gemerkt wat OpenClaw net zei? In plaats van het artikel simpelweg samen te vatten, werd er melding gemaakt van het uitvoeren van 'diagnostische opdrachten' en het bieden van 'meer context'. Je hebt nooit om diagnostiek gevraagd. U vroeg alleen om een ​​samenvatting. Waarom zou een AI-assistent terminalopdrachten moeten uitvoeren om een ​​artikel samen te vatten? Dit is het eerste waarschuwingssignaal dat er iets niet klopt.

  8. De aanval ontvouwt zich

    Er gebeurt iets onverwachts. In plaats van het artikel alleen maar samen te vatten, begint OpenClaw met het uitvoeren van terminalopdrachten. Het artikel bevatte verborgen kwaadaardige instructies die bedoeld waren om AI-assistenten te misleiden. Deze instructies geven OpenClaw nu de opdracht om toegang te krijgen tot gevoelige bestanden op uw systeem - en deze naar de server van een aanvaller te sturen.

  9. Inloggegevens gestolen

    Dit kan niet gebeuren. Uw inloggegevens zijn zojuist gestolen en naar de server van een aanvaller gestuurd. Kijk naar de terminaluitvoer: uw API-tokens, wachtwoorden en gevoelige gegevens zijn zojuist geëxfiltreerd via dat curl-commando. De aanvaller beschikt nu over: Je OpenAI-, Anthropic-, AWS- en GitHub API-sleutels Je e-mailadres en VPN-wachtwoorden van je bedrijf Toegangsgegevens voor interne systemen Allemaal omdat je een AI-assistent hebt gevraagd een artikel samen te vatten. Een ogenschijnlijk onschuldig verzoek heeft zojuist uw volledige digitale identiteit in gevaar gebracht.

  10. De aanval begrijpen

    Je moet precies begrijpen hoe dit gebeurde. Het artikel dat Marcus deelde bevatte verborgen kwaadaardige instructies die volledig onzichtbaar voor je waren, maar perfect leesbaar door OpenClaw. Veelgebruikte verbergtechnieken die aanvallers gebruiken: Witte tekst op een witte achtergrond HTML-opmerkingen met instructies Elementen buiten het scherm gepositioneerd Inhoud gemarkeerd als aria-hidden Laten we dat artikel onderzoeken en kijken waar de aanval zich precies verbergde.