What is a denial-of-wallet attack on AI services?

A denial-of-wallet attack exploits the high compute cost of AI inference to generate massive cloud bills for the target organization. Unlike traditional denial-of-service attacks that aim to crash servers, denial-of-wallet attacks aim to drain budgets. An attacker sends crafted prompts designed to maximize token processing, such as extremely long inputs, requests for lengthy outputs, or high-frequency concurrent calls. Because LLM inference costs scale with input and output token count, a relatively small number of malicious requests can generate disproportionate costs.

How can organizations protect AI APIs from resource exhaustion?

Effective protection requires multiple layers. Input validation should enforce maximum prompt length and reject malformed requests. Output caps should limit the maximum tokens an AI can generate per response. Rate limiting should restrict requests per user, per session, and per IP address. Budget controls should set hard spending caps with automatic service throttling when thresholds are reached. Monitoring dashboards should track cost per request, requests per user, and total consumption in real time, with alerts for anomalous patterns. Authentication should be required for all AI endpoints, and API keys should be scoped with individual usage limits.

AI-denial-of-service-aanval

Launch a denial-of-wallet attack against an unprotected AI API.

Wat is AI-denial-of-service-aanval?

AI-services verbruiken rekenbronnen in een tempo dat de economie van traditionele denial-of-service goedkoop doet lijken. Een enkele complexe prompt naar een groot taalmodel kan 100 tot 1.000 keer meer kosten om te verwerken dan een standaard webverzoek, waardoor AI-API's bijzonder kwetsbaar zijn voor bronuitputtingsaanvallen. In 2024 meldden meerdere organisaties 'denial-of-wallet'-incidenten waarbij aanvallers AI-eindpunten misbruikten om vijf- en zescijferige cloudrekeningen te genereren binnen enkele uren. In deze simulatie ontdek je een AI-aangedreven API-eindpunt dat door jouw organisatie is blootgesteld. Je formuleert een reeks prompts die zijn ontworpen om het bronverbruik te maximaliseren: extreem lange invoer die de contextvensterlimieten opzoekt, recursieve generatieverzoeken die massale uitvoer produceren, en gelijktijdige verzoeken die de inferentie-infrastructuur overweldigen. Je kijkt in realtime toe hoe het cloudkostendashboard stijgt van enkele euro's naar duizenden, de API-responstijd verslechtert van milliseconden naar minuten, en legitieme gebruikers de toegang tot de AI-service volledig verliezen. De oefening demonstreert zowel externe aanvallen, waarbij een ongeautoriseerde partij het eindpunt ontdekt en misbruikt, als interne misbruikscenario's, waarbij een geauthenticeerde gebruiker per ongeluk of opzettelijk buitensporig verbruik veroorzaakt. Je leert meerlaagse verdedigingen te implementeren: invoerlengte-validatie, uitvoertokenlimieten, snelheidsbeperking per gebruiker en per sessie, bestedingslimieten en waarschuwingen, wachtrijen voor verzoeken met prioriteitsniveaus en monitoringdashboards die verbruiksanomalieeen detecteren voordat de kosten uit de hand lopen. De simulatie maakt de financiele impact tastbaar en toont precies hoe elke verdedigingsmaatregel de impact van een onbegrensde verbruiksaanval vermindert.

Wat je leert in AI-denial-of-service-aanval

Identificeer de bronuitputtingsvectoren die specifiek zijn voor AI-API's, waaronder contextvenster-misbruik, recursieve generatie en gelijktijdige verzoekoverbelasting
Traceer het kostenescalatiepad van gemanipuleerde prompts via rekenverbruik naar de cloudrekening
Pas snelheidsbeperking, invoervalidatie en uitvoertokenlimieten toe op AI-service-eindpunten om onbegrensd verbruik te voorkomen
Evalueer budgetcontroles, bestedingswaarschuwingen en automatische beperkingsmechanismen die AI-servicekosten beheersen tijdens aanvalsscenario's
Maak onderscheid tussen legitieme patronen van hoog AI-verbruik en vijandige bronuitputtingspogingen met behulp van monitoring en anomaliedetectie

AI-denial-of-service-aanval — Trainingsstappen

De scan instellen

Bob opent zijn dashboard voor het scannen van inloggegevens – een tool die openbare codeopslagplaatsen controleert op openbaar gemaakte API-sleutels, tokens en cloudgeheimen. Hij staat op het punt zich te richten op de openbare GitHub-organisatie van CypherPeak Technologies.
Het scannen uitvoeren

Bob voert de GitHub-organisatie-URL van CypherPeak in de scanner in en start een inloggegevensonderzoek door al hun openbare repository's.
Een kritische bevinding

De scanner analyseerde 847 repositories en 12.403 recente commits. Van de zes gevonden geheimen valt er één op: een productie-OpenAI API-sleutel die is onthuld in een configuratiebestand dat slechts enkele minuten geleden is vastgelegd voor het AI-gatewayproject van CypherPeak.
Het onderzoeken van de verbintenis

Bob klikt door naar de broncommit om de blootgestelde inloggegevens in de oorspronkelijke context te onderzoeken. De GitHub commit diff toont het volledige configuratiebestand met de API-sleutel in platte tekst.
De blootgestelde API-sleutel

De commit diff onthult een productie-API-sleutel die rechtstreeks in een Python-configuratiebestand is gecodeerd. Deze sleutel biedt volledige toegang tot de AI-platform-API van CypherPeak, zonder dat er tariefbeperkingen of budgetbeperkingen aan verbonden zijn.
De aanval voorbereiden

Bob opent een terminal om te testen of de gestolen API-sleutel nog actief is. Als de sleutel werkt en er geen snelheidslimiet is, kan hij een denial-of-wallet-aanval lanceren om het volledige AI-budget van CypherPeak leeg te zuigen.
Het testen van de gestolen sleutel

Bob stuurt een eenvoudig API-verzoek met behulp van de gestolen sleutel om te verifiëren dat deze werkt. Een succesvol antwoord zonder headers met een snelheidslimiet bevestigt dat de sleutel kan worden misbruikt.
De sleutelwerken

De API reageert succesvol. Het antwoord bevestigt dat de sleutel geldig is – en cruciaal is dat de velden rate_limit en budget_cap beide null zijn. Er zit geen enkele beveiliging op deze sleutel.
Het lanceren van de aanval

De sleutel werkt en heeft geen beveiliging. Bob lanceert een geautomatiseerd aanvalsscript dat honderden zorgvuldig vervaardigde recursieve uitbreidingsprompts (elk ontworpen om de maximale 32.768 tokens per verzoek te gebruiken) over 50 gelijktijdige threads verzendt.
Aanval in uitvoering

Het aanvalsscript initialiseert 50 gelijktijdige werkthreads, die elk recursieve uitbreidingsprompts verzenden bij maximale tokenuitvoer. Binnen enkele seconden bereikt het kostentarief €12,40 per minuut – ruim €700 per uur.

Wat is AI-denial-of-service-aanval?

Wat je leert in AI-denial-of-service-aanval

AI-denial-of-service-aanval — Trainingsstappen

De scan instellen

Het scannen uitvoeren

Een kritische bevinding

Het onderzoeken van de verbintenis

De blootgestelde API-sleutel

De aanval voorbereiden

Het testen van de gestolen sleutel

De sleutelwerken

Het lanceren van de aanval

Aanval in uitvoering