Governance dei dati dell’intelligenza artificiale
Review training data quality against EU AI Act Article 10 requirements.
Cos’è Governance dei dati dell’intelligenza artificiale?
Scopri come l'articolo 10 della legge UE sull'intelligenza artificiale stabilisce i requisiti di governance dei dati per i sistemi di intelligenza artificiale ad alto rischio. Esaminare un set di dati di addestramento per verificarne rappresentatività, qualità dei dati, perdite e dati personali non necessari prima che l'addestramento del modello possa procedere.
Cosa imparerai in Governance dei dati dell’intelligenza artificiale
- Comprendere i requisiti dell’articolo 10 per l’addestramento sulla qualità dei dati nei sistemi di IA ad alto rischio
- Identificare i problemi di rappresentatività dei dati che potrebbero portare a previsioni AI distorte
- Riconoscere la perdita di dati che gonfia artificialmente le prestazioni del modello
- Applicare i principi di minimizzazione dei dati per ridurre il rischio di conformità al GDPR nei dati di formazione dell'IA
- Documentare i risultati della governance dei dati come richiesto per la conformità dell'IA ad alto rischio
Governance dei dati dell’intelligenza artificiale — Fasi della formazione
-
Articolo 10: Governance dei dati
L’articolo 10 della legge dell’UE sull’IA stabilisce i requisiti di governance dei dati per i sistemi di IA ad alto rischio. I dati di formazione, convalida e test devono soddisfare rigorosi criteri di qualità: I dati devono essere pertinenti all'attività per cui il sistema di intelligenza artificiale è progettato per eseguire. I dati devono essere sufficientemente rappresentativi della popolazione utilizzata dal modello. I dati devono essere il più possibile privi di errori e adeguati allo scopo previsto. Le pratiche di governance dei dati devono affrontare potenziali pregiudizi che potrebbero portare a a risultati discriminatori. Dati inadeguati portano a un’intelligenza artificiale distorta, e l’intelligenza artificiale distorta porta a responsabilità legale. La governance dei dati non è una buona pratica ai sensi della legge sull’intelligenza artificiale dell’UE: è un obbligo legale.
-
Richiesta di revisione del set di dati
Arriva un'e-mail da Marcus Rodriguez, il capo del team AI. Il team si sta preparando per addestrare ChurnPredict v3 e il set di dati necessita di una revisione della conformità prima che la formazione possa iniziare. L'e-mail si collega direttamente al set di dati sulla piattaforma DataOps.
-
Problema 1: sottorappresentanza regionale
La piattaforma DataOps carica la revisione del set di dati ChurnPredict v3. La distribuzione regionale dei dati di addestramento risalta immediatamente: il set di dati è fortemente concentrato in una regione nonostante il modello sia progettato per servire tutte e quattro allo stesso modo.
-
Problema 2: dati pre-pandemia obsoleti
La cronologia della raccolta dei dati rivela un’altra preoccupazione. Una parte significativa dei documenti è antecedente a un cambiamento fondamentale nel comportamento dei clienti.
-
Problema 3: perdita di dati
Uno sguardo più attento all’elenco delle funzionalità rivela un problema critico di qualità dei dati che minerebbe completamente il modello.
-
Verifica della conoscenza: rappresentatività dei dati
Prima di continuare la rassegna, una domanda sulla questione della distribuzione regionale.
-
Problema 4: dati personali non necessari
La sezione finale della revisione rivela un rischio di conformità che si estende oltre l’AI Act fino al territorio del GDPR.
-
Riepilogo della revisione
Alice ha completato la revisione della governance dei dati. Prima che la formazione del modello possa procedere è necessario risolvere quattro problemi critici: Grave sottorappresentanza regionale : 72% di dati della regione settentrionale per un modello che serve equamente 4 regioni. Il set di dati deve essere ribilanciato per rappresentare adeguatamente tutte le regioni di distribuzione. Dati pre-pandemia obsoleti : il 38% dei record del periodo 2019-2020 non riflette più il comportamento attuale dei clienti. Questi record devono essere esclusi o ponderati in modo appropriato. Perdita di dati : la funzione account_status codifica direttamente la variabile target e deve essere rimossa per evitare che la precisione dell'addestramento venga gonfiata artificialmente. PII non necessarie : nomi non elaborati, email, numeri di telefono e indirizzi creano esposizione al GDPR senza contribuire alla previsione dell'abbandono. Questi campi devono essere rimossi o pseudonimizzati.
-
Invia una segnalazione di conformità
Identificare le lacune è solo metà del lavoro. Ai sensi dell'articolo 10, la revisione della governance dei dati deve essere documentata e indirizzata al responsabile del team AI e al responsabile della protezione dei dati, in modo che la formazione del modello venga sospesa fino alla risoluzione dei problemi.
-
Invia il rapporto di conformità
Alice compila il report con i risultati, le quattro lacune mappate all'Articolo 10 e al GDPR e le azioni che il team AI deve completare prima che la formazione riprenda.