What does Article 10 of the EU AI Act require for training data?

Article 10 requires that training, validation, and testing data for high-risk AI systems be relevant, sufficiently representative of the deployment population, as free of errors as possible, and appropriate to the intended purpose. Data governance practices must also address potential biases.

What is data leakage in AI training?

Data leakage occurs when the training data contains information that would not be available at prediction time. This causes artificially high accuracy during training that collapses in production, because the model learned to rely on information it will never have when making real predictions.

How do GDPR and the EU AI Act intersect on training data?

The EU AI Act's data governance requirements complement GDPR obligations. Including unnecessary personal data in training datasets violates GDPR's data minimization principle and creates additional compliance risk on top of AI Act obligations. Only data directly relevant to the model's task should be included.

Governance dei dati dell’intelligenza artificiale

Review training data quality against EU AI Act Article 10 requirements.

Cos’è Governance dei dati dell’intelligenza artificiale?

Scopri come l'articolo 10 della legge UE sull'intelligenza artificiale stabilisce i requisiti di governance dei dati per i sistemi di intelligenza artificiale ad alto rischio. Esaminare un set di dati di addestramento per verificarne rappresentatività, qualità dei dati, perdite e dati personali non necessari prima che l'addestramento del modello possa procedere.

Cosa imparerai in Governance dei dati dell’intelligenza artificiale

Comprendere i requisiti dell’articolo 10 per l’addestramento sulla qualità dei dati nei sistemi di IA ad alto rischio
Identificare i problemi di rappresentatività dei dati che potrebbero portare a previsioni AI distorte
Riconoscere la perdita di dati che gonfia artificialmente le prestazioni del modello
Applicare i principi di minimizzazione dei dati per ridurre il rischio di conformità al GDPR nei dati di formazione dell'IA
Documentare i risultati della governance dei dati come richiesto per la conformità dell'IA ad alto rischio

Governance dei dati dell’intelligenza artificiale — Fasi della formazione

Articolo 10: Governance dei dati

L’articolo 10 della legge dell’UE sull’IA stabilisce i requisiti di governance dei dati per i sistemi di IA ad alto rischio. I dati di formazione, convalida e test devono soddisfare rigorosi criteri di qualità: I dati devono essere pertinenti all'attività per cui il sistema di intelligenza artificiale è progettato per eseguire. I dati devono essere sufficientemente rappresentativi della popolazione utilizzata dal modello. I dati devono essere il più possibile privi di errori e adeguati allo scopo previsto. Le pratiche di governance dei dati devono affrontare potenziali pregiudizi che potrebbero portare a a risultati discriminatori. Dati inadeguati portano a un’intelligenza artificiale distorta, e l’intelligenza artificiale distorta porta a responsabilità legale. La governance dei dati non è una buona pratica ai sensi della legge sull’intelligenza artificiale dell’UE: è un obbligo legale.
Richiesta di revisione del set di dati

Arriva un'e-mail da Marcus Rodriguez, il capo del team AI. Il team si sta preparando per addestrare ChurnPredict v3 e il set di dati necessita di una revisione della conformità prima che la formazione possa iniziare. L'e-mail si collega direttamente al set di dati sulla piattaforma DataOps.
Problema 1: sottorappresentanza regionale

La piattaforma DataOps carica la revisione del set di dati ChurnPredict v3. La distribuzione regionale dei dati di addestramento risalta immediatamente: il set di dati è fortemente concentrato in una regione nonostante il modello sia progettato per servire tutte e quattro allo stesso modo.
Problema 2: dati pre-pandemia obsoleti

La cronologia della raccolta dei dati rivela un’altra preoccupazione. Una parte significativa dei documenti è antecedente a un cambiamento fondamentale nel comportamento dei clienti.
Problema 3: perdita di dati

Uno sguardo più attento all’elenco delle funzionalità rivela un problema critico di qualità dei dati che minerebbe completamente il modello.
Verifica della conoscenza: rappresentatività dei dati

Prima di continuare la rassegna, una domanda sulla questione della distribuzione regionale.
Problema 4: dati personali non necessari

La sezione finale della revisione rivela un rischio di conformità che si estende oltre l’AI Act fino al territorio del GDPR.
Riepilogo della revisione

Alice ha completato la revisione della governance dei dati. Prima che la formazione del modello possa procedere è necessario risolvere quattro problemi critici: Grave sottorappresentanza regionale : 72% di dati della regione settentrionale per un modello che serve equamente 4 regioni. Il set di dati deve essere ribilanciato per rappresentare adeguatamente tutte le regioni di distribuzione. Dati pre-pandemia obsoleti : il 38% dei record del periodo 2019-2020 non riflette più il comportamento attuale dei clienti. Questi record devono essere esclusi o ponderati in modo appropriato. Perdita di dati : la funzione account_status codifica direttamente la variabile target e deve essere rimossa per evitare che la precisione dell'addestramento venga gonfiata artificialmente. PII non necessarie : nomi non elaborati, email, numeri di telefono e indirizzi creano esposizione al GDPR senza contribuire alla previsione dell'abbandono. Questi campi devono essere rimossi o pseudonimizzati.
Invia una segnalazione di conformità

Identificare le lacune è solo metà del lavoro. Ai sensi dell'articolo 10, la revisione della governance dei dati deve essere documentata e indirizzata al responsabile del team AI e al responsabile della protezione dei dati, in modo che la formazione del modello venga sospesa fino alla risoluzione dei problemi.
Invia il rapporto di conformità

Alice compila il report con i risultati, le quattro lacune mappate all'Articolo 10 e al GDPR e le azioni che il team AI deve completare prima che la formazione riprenda.

Cos’è Governance dei dati dell’intelligenza artificiale?

Cosa imparerai in Governance dei dati dell’intelligenza artificiale

Governance dei dati dell’intelligenza artificiale — Fasi della formazione

Articolo 10: Governance dei dati

Richiesta di revisione del set di dati

Problema 1: sottorappresentanza regionale

Problema 2: dati pre-pandemia obsoleti

Problema 3: perdita di dati

Verifica della conoscenza: rappresentatività dei dati

Problema 4: dati personali non necessari

Riepilogo della revisione

Invia una segnalazione di conformità

Invia il rapporto di conformità