What is a denial-of-wallet attack on AI services?

A denial-of-wallet attack exploits the high compute cost of AI inference to generate massive cloud bills for the target organization. Unlike traditional denial-of-service attacks that aim to crash servers, denial-of-wallet attacks aim to drain budgets. An attacker sends crafted prompts designed to maximize token processing, such as extremely long inputs, requests for lengthy outputs, or high-frequency concurrent calls. Because LLM inference costs scale with input and output token count, a relatively small number of malicious requests can generate disproportionate costs.

How can organizations protect AI APIs from resource exhaustion?

Effective protection requires multiple layers. Input validation should enforce maximum prompt length and reject malformed requests. Output caps should limit the maximum tokens an AI can generate per response. Rate limiting should restrict requests per user, per session, and per IP address. Budget controls should set hard spending caps with automatic service throttling when thresholds are reached. Monitoring dashboards should track cost per request, requests per user, and total consumption in real time, with alerts for anomalous patterns. Authentication should be required for all AI endpoints, and API keys should be scoped with individual usage limits.

Attacco denial-of-service all'IA

Launch a denial-of-wallet attack against an unprotected AI API.

Cos’è Attacco denial-of-service all'IA?

I servizi IA consumano risorse di calcolo a un ritmo che rende l'economia tradizionale del denial-of-service conveniente in confronto. Un singolo prompt complesso a un modello linguistico di grandi dimensioni puo costare da 100 a 1.000 volte di piu da elaborare rispetto a una richiesta web standard, rendendo le API IA particolarmente vulnerabili agli attacchi di esaurimento risorse. Nel 2024, diverse organizzazioni hanno segnalato incidenti 'denial-of-wallet' in cui gli attaccanti hanno sfruttato endpoint IA per generare fatture cloud a cinque e sei cifre in poche ore. In questa simulazione, scopri un endpoint API alimentato dall'IA esposto dalla tua organizzazione. Crei una serie di prompt progettati per massimizzare il consumo di risorse: input estremamente lunghi che spingono al limite la finestra di contesto, richieste di generazione ricorsiva che producono output massicci e richieste concorrenti che sovraccaricano l'infrastruttura di inferenza. Osservi in tempo reale la dashboard dei costi cloud salire da pochi dollari a migliaia, il tempo di risposta dell'API degradare da millisecondi a minuti e gli utenti legittimi perdere completamente l'accesso al servizio IA. L'esercizio dimostra sia attacchi esterni, dove una parte non autorizzata scopre e abusa dell'endpoint, sia scenari di abuso interno, dove un utente autenticato innesca accidentalmente o deliberatamente un consumo eccessivo. Imparerai a implementare difese multilivello: validazione della lunghezza dell'input, limiti sui token di output, limitazione della frequenza per utente e per sessione, soglie di spesa e alert, code delle richieste con livelli di priorita e dashboard di monitoraggio che rilevano anomalie di consumo prima che i costi vadano fuori controllo. La simulazione rende l'impatto finanziario tangibile, mostrando esattamente come ogni controllo difensivo riduce il raggio d'impatto di un attacco di consumo illimitato.

Cosa imparerai in Attacco denial-of-service all'IA

Identificare i vettori di esaurimento risorse specifici delle API IA, incluso l'abuso della finestra di contesto, la generazione ricorsiva e il flooding di richieste concorrenti
Tracciare il percorso di escalation dei costi dai prompt costruiti ad hoc attraverso il consumo di calcolo fino all'impatto sulla fatturazione cloud
Applicare limitazione della frequenza, validazione dell'input e limiti sui token di output agli endpoint dei servizi IA per prevenire il consumo illimitato
Valutare i controlli di budget, gli alert di spesa e i meccanismi di throttling automatico che contengono i costi dei servizi IA durante gli scenari di attacco
Distinguere tra pattern di utilizzo IA legittimi ad alto consumo e tentativi avversari di esaurimento risorse utilizzando monitoraggio e rilevamento delle anomalie

Attacco denial-of-service all'IA — Fasi della formazione

Impostazione della scansione

Bob apre il dashboard di scansione delle credenziali, uno strumento che monitora i repository di codice pubblico per chiavi API, token e segreti cloud esposti. Sta per prendere di mira l'organizzazione pubblica GitHub di CypherPeak Technologies.
Esecuzione della scansione

Bob inserisce l'URL dell'organizzazione GitHub di CypherPeak nello scanner e avvia una scansione delle credenziali in tutti i loro repository pubblici.
Una scoperta critica

Lo scanner ha analizzato 847 repository e 12.403 commit recenti. Tra i sei segreti totali trovati, uno spicca: una chiave API OpenAI di produzione esposta in un file di configurazione inviato pochi minuti fa al progetto gateway AI di CypherPeak.
Esaminando l'impegno

Bob fa clic sul commit di origine per esaminare la credenziale esposta nel suo contesto originale. Il diff di commit GitHub mostra il file di configurazione completo con la chiave API in testo semplice.
La chiave API esposta

Il commit diff rivela una chiave API di produzione codificata direttamente in un file di configurazione Python. Questa chiave fornisce l'accesso completo all'API della piattaforma AI di CypherPeak senza limiti di velocità o restrizioni di budget allegate.
Preparare l'attacco

Bob apre un terminale per verificare se la chiave API rubata è ancora attiva. Se la chiave funziona e non ha limiti di velocità, può lanciare un attacco di negazione del portafoglio per prosciugare l'intero budget dell'IA di CypherPeak.
Testare la chiave rubata

Bob invia una semplice richiesta API utilizzando la chiave rubata per verificare che funzioni. Una risposta positiva senza intestazioni di limiti di velocità confermerà che la chiave è sfruttabile.
Le opere chiave

L'API risponde correttamente. La risposta conferma che la chiave è valida e, cosa fondamentale, i campi rate_limit e budget_cap sono entrambi null . Non ci sono protezioni di sorta su questa chiave.
Lanciare l'attacco

La chiave funziona e non ha protezioni. Bob lancia uno script di attacco automatizzato che invia centinaia di richieste di espansione ricorsive accuratamente predisposte, ciascuna progettata per consumare un massimo di 32.768 token per richiesta, attraverso 50 thread simultanei.
Attacco in corso

Lo script di attacco inizializza 50 thread di lavoro simultanei, ciascuno dei quali invia richieste di espansione ricorsive all'output massimo del token. In pochi secondi, il costo raggiunge i 12,40 dollari al minuto, ovvero oltre 700 dollari l’ora.

Cos’è Attacco denial-of-service all'IA?

Cosa imparerai in Attacco denial-of-service all'IA

Attacco denial-of-service all'IA — Fasi della formazione

Impostazione della scansione

Esecuzione della scansione

Una scoperta critica

Esaminando l'impegno

La chiave API esposta

Preparare l'attacco

Testare la chiave rubata

Le opere chiave

Lanciare l'attacco

Attacco in corso