KI-Daten-Governance
Review training data quality against EU AI Act Article 10 requirements.
What Is KI-Daten-Governance?
Erfahren Sie, wie Artikel 10 des EU-KI-Gesetzes Anforderungen an die Datenverwaltung für Hochrisiko-KI-Systeme festlegt. Überprüfen Sie einen Trainingsdatensatz auf Repräsentativität, Datenqualität, Lecks und unnötige personenbezogene Daten, bevor das Modelltraining fortgesetzt werden kann.
What You'll Learn in KI-Daten-Governance
- Verstehen Sie die Anforderungen von Artikel 10 für die Qualität von Trainingsdaten in Hochrisiko-KI-Systemen
- Identifizieren Sie Probleme bei der Datenrepräsentativität, die zu verzerrten KI-Vorhersagen führen könnten
- Erkennen Sie Datenlecks, die die Modellleistung künstlich steigern
- Wenden Sie Prinzipien der Datenminimierung an, um das DSGVO-Compliance-Risiko bei KI-Trainingsdaten zu reduzieren
- Dokumentieren Sie Daten-Governance-Ergebnisse, wie es für die Einhaltung der KI-Compliance mit hohem Risiko erforderlich ist
KI-Daten-Governance — Training Steps
-
Artikel 10: Datenverwaltung
Artikel 10 des EU-KI-Gesetzes legt Anforderungen an die Datenverwaltung für Hochrisiko-KI-Systeme fest. Trainings-, Validierungs- und Testdaten müssen strenge Qualitätskriterien erfüllen: Daten müssen relevant für die Aufgabe sein, für die das KI-System ausgelegt ist. Daten müssen ausreichend repräsentativ für die Population sein, die das Modell bedienen soll. Daten müssen so fehlerfrei wie möglich und für den beabsichtigten Zweck geeignet sein. Data-Governance-Praktiken müssen potenzielle Verzerrungen berücksichtigen , die dazu führen könnten zu diskriminierenden Ergebnissen. Schlechte Daten führen zu voreingenommener KI und eine voreingenommene KI führt zu rechtlicher Haftung. Data Governance ist nach dem EU-KI-Gesetz keine Best Practice, sondern eine gesetzliche Verpflichtung.
-
Anfrage zur Datensatzüberprüfung
Es kommt eine E-Mail von Marcus Rodriguez, dem Leiter des KI-Teams. Das Team bereitet sich auf das Training von ChurnPredict v3 vor und der Datensatz muss einer Konformitätsprüfung unterzogen werden, bevor mit dem Training begonnen werden kann. Die E-Mail verweist direkt auf den Datensatz auf der DataOps-Plattform.
-
Problem 1: Regionale Unterrepräsentation
Die DataOps-Plattform lädt die Datensatzüberprüfung von ChurnPredict v3. Die regionale Verteilung der Trainingsdaten fällt sofort ins Auge – der Datensatz ist stark auf eine Region konzentriert, obwohl das Modell so konzipiert ist, dass es alle vier gleichermaßen abdeckt.
-
Problem 2: Veraltete Daten aus der Zeit vor der Pandemie
Der Zeitplan für die Datenerfassung offenbart ein weiteres Problem. Ein erheblicher Teil der Aufzeichnungen stammt aus der Zeit vor einer grundlegenden Änderung des Kundenverhaltens.
-
Problem 3: Datenleck
Ein genauerer Blick auf die Funktionsliste offenbart ein kritisches Datenqualitätsproblem, das das Modell vollständig untergraben würde.
-
Wissenscheck: Datenrepräsentativität
Bevor wir mit der Überprüfung fortfahren, eine Frage zur regionalen Verteilungsproblematik.
-
Problem 4: Unnötige personenbezogene Daten
Der letzte Abschnitt der Überprüfung offenbart ein Compliance-Risiko, das über das KI-Gesetz hinaus bis in den Bereich der DSGVO reicht.
-
Zusammenfassung der Rezension
Alice hat die Überprüfung der Datenverwaltung abgeschlossen. Vier kritische Probleme müssen gelöst werden, bevor das Modelltraining fortgesetzt werden kann: Schwere regionale Unterrepräsentation – 72 % der Nordregionsdaten für ein Modell, das vier Regionen gleichermaßen bedient. Der Datensatz muss neu ausbalanciert werden, um alle Bereitstellungsregionen angemessen darzustellen. Veraltete Daten vor der Pandemie – 38 % der Datensätze aus den Jahren 2019–2020 spiegeln nicht mehr das aktuelle Kundenverhalten wider. Diese Datensätze sollten ausgeschlossen oder entsprechend gewichtet werden. Datenlecks – die Funktion „account_status“ kodiert direkt die Zielvariable und muss entfernt werden, um eine künstlich überhöhte Trainingsgenauigkeit zu verhindern. Unnötige personenbezogene Daten – Rohnamen, E-Mails, Telefonnummern und Adressen erzeugen eine DSGVO-Gefährdung, ohne zur Abwanderungsvorhersage beizutragen. Diese Felder müssen entfernt oder pseudonymisiert werden.
-
Reichen Sie einen Compliance-Bericht ein
Lücken zu identifizieren ist nur die halbe Arbeit. Gemäß Artikel 10 muss die Überprüfung der Datenverwaltung dokumentiert und an den KI-Teamleiter und den Datenschutzbeauftragten weitergeleitet werden, sodass das Modelltraining angehalten wird, bis die Probleme gelöst sind.
-
Senden Sie den Compliance-Bericht
Alice füllt den Bericht mit den Ergebnissen, den vier Lücken gemäß Artikel 10 und der DSGVO sowie den Maßnahmen aus, die das KI-Team abschließen muss, bevor das Training wieder aufgenommen wird.