Governance dei dati dell’intelligenza artificiale

Review training data quality against EU AI Act Article 10 requirements.

Cos’è Governance dei dati dell’intelligenza artificiale?

Scopri come l'articolo 10 della legge UE sull'intelligenza artificiale stabilisce i requisiti di governance dei dati per i sistemi di intelligenza artificiale ad alto rischio. Esaminare un set di dati di addestramento per verificarne rappresentatività, qualità dei dati, perdite e dati personali non necessari prima che l'addestramento del modello possa procedere.

Cosa imparerai in Governance dei dati dell’intelligenza artificiale

Governance dei dati dell’intelligenza artificiale — Fasi della formazione

  1. Articolo 10: Governance dei dati

    L’articolo 10 della legge dell’UE sull’IA stabilisce i requisiti di governance dei dati per i sistemi di IA ad alto rischio. I dati di formazione, convalida e test devono soddisfare rigorosi criteri di qualità: I dati devono essere pertinenti all'attività per cui il sistema di intelligenza artificiale è progettato per eseguire. I dati devono essere sufficientemente rappresentativi della popolazione utilizzata dal modello. I dati devono essere il più possibile privi di errori e adeguati allo scopo previsto. Le pratiche di governance dei dati devono affrontare potenziali pregiudizi che potrebbero portare a a risultati discriminatori. Dati inadeguati portano a un’intelligenza artificiale distorta, e l’intelligenza artificiale distorta porta a responsabilità legale. La governance dei dati non è una buona pratica ai sensi della legge sull’intelligenza artificiale dell’UE: è un obbligo legale.

  2. Richiesta di revisione del set di dati

    Arriva un'e-mail da Marcus Rodriguez, il capo del team AI. Il team si sta preparando per addestrare ChurnPredict v3 e il set di dati necessita di una revisione della conformità prima che la formazione possa iniziare. L'e-mail si collega direttamente al set di dati sulla piattaforma DataOps.

  3. Problema 1: sottorappresentanza regionale

    La piattaforma DataOps carica la revisione del set di dati ChurnPredict v3. La distribuzione regionale dei dati di addestramento risalta immediatamente: il set di dati è fortemente concentrato in una regione nonostante il modello sia progettato per servire tutte e quattro allo stesso modo.

  4. Problema 2: dati pre-pandemia obsoleti

    La cronologia della raccolta dei dati rivela un’altra preoccupazione. Una parte significativa dei documenti è antecedente a un cambiamento fondamentale nel comportamento dei clienti.

  5. Problema 3: perdita di dati

    Uno sguardo più attento all’elenco delle funzionalità rivela un problema critico di qualità dei dati che minerebbe completamente il modello.

  6. Verifica della conoscenza: rappresentatività dei dati

    Prima di continuare la rassegna, una domanda sulla questione della distribuzione regionale.

  7. Problema 4: dati personali non necessari

    La sezione finale della revisione rivela un rischio di conformità che si estende oltre l’AI Act fino al territorio del GDPR.

  8. Riepilogo della revisione

    Alice ha completato la revisione della governance dei dati. Prima che la formazione del modello possa procedere è necessario risolvere quattro problemi critici: Grave sottorappresentanza regionale : 72% di dati della regione settentrionale per un modello che serve equamente 4 regioni. Il set di dati deve essere ribilanciato per rappresentare adeguatamente tutte le regioni di distribuzione. Dati pre-pandemia obsoleti : il 38% dei record del periodo 2019-2020 non riflette più il comportamento attuale dei clienti. Questi record devono essere esclusi o ponderati in modo appropriato. Perdita di dati : la funzione account_status codifica direttamente la variabile target e deve essere rimossa per evitare che la precisione dell'addestramento venga gonfiata artificialmente. PII non necessarie : nomi non elaborati, email, numeri di telefono e indirizzi creano esposizione al GDPR senza contribuire alla previsione dell'abbandono. Questi campi devono essere rimossi o pseudonimizzati.

  9. Invia una segnalazione di conformità

    Identificare le lacune è solo metà del lavoro. Ai sensi dell'articolo 10, la revisione della governance dei dati deve essere documentata e indirizzata al responsabile del team AI e al responsabile della protezione dei dati, in modo che la formazione del modello venga sospesa fino alla risoluzione dei problemi.

  10. Invia il rapporto di conformità

    Alice compila il report con i risultati, le quattro lacune mappate all'Articolo 10 e al GDPR e le azioni che il team AI deve completare prima che la formazione riprenda.