What does Article 10 of the EU AI Act require for training data?

Article 10 requires that training, validation, and testing data for high-risk AI systems be relevant, sufficiently representative of the deployment population, as free of errors as possible, and appropriate to the intended purpose. Data governance practices must also address potential biases.

What is data leakage in AI training?

Data leakage occurs when the training data contains information that would not be available at prediction time. This causes artificially high accuracy during training that collapses in production, because the model learned to rely on information it will never have when making real predictions.

How do GDPR and the EU AI Act intersect on training data?

The EU AI Act's data governance requirements complement GDPR obligations. Including unnecessary personal data in training datasets violates GDPR's data minimization principle and creates additional compliance risk on top of AI Act obligations. Only data directly relevant to the model's task should be included.

KI-Daten-Governance

Review training data quality against EU AI Act Article 10 requirements.

What Is KI-Daten-Governance?

Lernen Sie, wie Artikel 10 der EU-KI-Verordnung die Daten-Governance-Anforderungen für Hochrisiko-KI-Systeme festlegt. Prüfen Sie einen Trainingsdatensatz auf Repräsentativität, Datenqualität, Data Leakage und unnötige personenbezogene Daten, bevor das Modelltraining starten kann.

What You'll Learn in KI-Daten-Governance

Die Anforderungen aus Artikel 10 an die Trainingsdaten-Qualität bei Hochrisiko-KI-Systemen verstehen
Probleme der Datenrepräsentativität erkennen, die zu verzerrten KI-Vorhersagen führen können
Data Leakage erkennen, das die Modellleistung künstlich aufbläht
Den Grundsatz der Datenminimierung anwenden, um DSGVO-Compliance-Risiken in KI-Trainingsdaten zu reduzieren
Daten-Governance-Befunde so dokumentieren, wie es die Compliance bei Hochrisiko-KI verlangt

KI-Daten-Governance — Training Steps

Artikel 10: Daten-Governance

Artikel 10 der EU-KI-Verordnung begründet Daten-Governance-Anforderungen für Hochrisiko-KI-Systeme. Trainings-, Validierungs- und Testdaten müssen strenge Qualitätskriterien erfüllen: Die Daten müssen relevant für die Aufgabe sein, die das KI-System erfüllen soll. Die Daten müssen hinreichend repräsentativ für die Bevölkerung sein, der das Modell dienen wird. Die Daten müssen so fehlerfrei wie möglich und für den vorgesehenen Zweck geeignet sein. Die Daten-Governance-Praktiken müssen mögliche Verzerrungen adressieren, die zu diskriminierenden Ergebnissen führen könnten. Schlechte Daten führen zu voreingenommener KI, und voreingenommene KI führt zu rechtlicher Haftung. Daten-Governance ist nach der EU-KI-Verordnung keine Best Practice — sondern eine Rechtspflicht.
Anfrage zur Datensatz-Prüfung

An email arrives from Marcus Rodriguez, the AI Team Lead. The team is preparing to train ChurnPredict v3, and the dataset needs a compliance review before training can begin. The email links directly to the dataset on the DataOps platform.
Problem 1: Regionale Unterrepräsentation

The DataOps platform loads the ChurnPredict v3 dataset review. The regional distribution of the training data immediately stands out - the dataset is heavily concentrated in one region despite the model being designed to serve all four equally.
Problem 2: Veraltete Daten aus der Vor-Pandemiezeit

Der zeitliche Verlauf der Datenerfassung offenbart ein weiteres Problem. Ein erheblicher Teil der Datensätze stammt aus der Zeit vor einem grundlegenden Wandel im Kundenverhalten.
Problem 3: Data Leakage

Ein genauerer Blick auf die Merkmalsliste deckt ein kritisches Datenqualitäts-Problem auf, das das Modell vollständig untergraben würde.
Wissenstest: Datenrepräsentativität

Bevor Sie die Prüfung fortsetzen, eine Frage zum Problem der regionalen Verteilung.
Problem 4: Unnötige personenbezogene Daten

Der letzte Abschnitt der Prüfung zeigt ein Compliance-Risiko auf, das über die KI-Verordnung hinaus in den DSGVO-Bereich reicht.
Zusammenfassung der Prüfung

Alice has completed the data governance review. Four critical issues must be resolved before model training can proceed: Severe regional underrepresentation - 72% North region data for a model serving 4 regions equally. The dataset must be rebalanced to adequately represent all deployment regions. Stale pre-pandemic data - 38% of records from 2019-2020 no longer reflect current customer behavior. These records should be excluded or weighted appropriately. Data leakage - the account_status feature directly encodes the target variable and must be removed to prevent artificially inflated training accuracy. Unnecessary PII - raw names, emails, phone numbers, and addresses create GDPR exposure without contributing to churn prediction. These fields must be removed or pseudonymized.
File a Compliance Report

Identifying gaps is only half the job. Under Article 10, the data governance review must be documented and routed to the AI Team Lead and the Data Protection Officer so model training is paused until the issues are resolved.
Submit the Compliance Report

Alice fills in the report with the findings, the four gaps mapped to Article 10 and GDPR, and the actions the AI team must complete before training resumes.

What Is KI-Daten-Governance?

What You'll Learn in KI-Daten-Governance

KI-Daten-Governance — Training Steps

Artikel 10: Daten-Governance

Anfrage zur Datensatz-Prüfung

Problem 1: Regionale Unterrepräsentation

Problem 2: Veraltete Daten aus der Vor-Pandemiezeit

Problem 3: Data Leakage

Wissenstest: Datenrepräsentativität

Problem 4: Unnötige personenbezogene Daten

Zusammenfassung der Prüfung

File a Compliance Report

Submit the Compliance Report