What does Article 10 of the EU AI Act require for training data?

Article 10 requires that training, validation, and testing data for high-risk AI systems be relevant, sufficiently representative of the deployment population, as free of errors as possible, and appropriate to the intended purpose. Data governance practices must also address potential biases.

What is data leakage in AI training?

Data leakage occurs when the training data contains information that would not be available at prediction time. This causes artificially high accuracy during training that collapses in production, because the model learned to rely on information it will never have when making real predictions.

How do GDPR and the EU AI Act intersect on training data?

The EU AI Act's data governance requirements complement GDPR obligations. Including unnecessary personal data in training datasets violates GDPR's data minimization principle and creates additional compliance risk on top of AI Act obligations. Only data directly relevant to the model's task should be included.

AI-gegevensbeheer

Review training data quality against EU AI Act Article 10 requirements.

Wat is AI-gegevensbeheer?

Ontdek hoe artikel 10 van de EU AI Act vereisten voor gegevensbeheer voor AI-systemen met een hoog risico vastlegt. Controleer een trainingsdataset op representativiteit, gegevenskwaliteit, lekkage en onnodige persoonlijke gegevens voordat de modeltraining kan doorgaan.

Wat je leert in AI-gegevensbeheer

Begrijp de vereisten van artikel 10 voor het trainen van gegevenskwaliteit in AI-systemen met een hoog risico
Identificeer problemen met de representativiteit van gegevens die kunnen leiden tot vertekende AI-voorspellingen
Herken gegevenslekken die de modelprestaties kunstmatig verhogen
Pas principes voor dataminimalisatie toe om het risico op naleving van de AVG in AI-trainingsgegevens te verminderen
Documenteer bevindingen op het gebied van gegevensbeheer zoals vereist voor naleving van AI met een hoog risico

AI-gegevensbeheer — Trainingsstappen

Artikel 10: Gegevensbeheer

Artikel 10 van de EU AI-wet stelt vereisten voor gegevensbeheer vast voor AI-systemen met een hoog risico. Trainings-, validatie- en testgegevens moeten aan strikte kwaliteitscriteria voldoen: Gegevens moeten relevant zijn voor de taak waarvoor het AI-systeem is ontworpen. Gegevens moeten voldoende representatief zijn voor de populatie waarvoor het model zal dienen. Gegevens moeten zo foutloos mogelijk zijn en geschikt zijn voor het beoogde doel. Databeheerpraktijken moeten het potentieel aanpakken. vooroordelen die tot discriminerende uitkomsten kunnen leiden. Slechte gegevens leiden tot bevooroordeelde AI, en bevooroordeelde AI leidt tot wettelijke aansprakelijkheid. Data governance is geen best practice onder de EU AI Act – het is een wettelijke verplichting.
Verzoek om gegevenssetbeoordeling

Er komt een e-mail binnen van Marcus Rodriguez, de AI-teamleider. Het team bereidt zich voor op het trainen van ChurnPredict v3, en de dataset heeft een nalevingsbeoordeling nodig voordat de training kan beginnen. De e-mail linkt rechtstreeks naar de dataset op het DataOps-platform.
Probleem 1: Regionale ondervertegenwoordiging

Het DataOps-platform laadt de ChurnPredict v3-datasetreview. De regionale verdeling van de trainingsgegevens valt meteen op: de dataset is sterk geconcentreerd in één regio, ondanks dat het model is ontworpen om alle vier in gelijke mate te bedienen.
Probleem 2: Verouderde gegevens van vóór de pandemie

De tijdlijn voor het verzamelen van gegevens onthult nog een ander punt van zorg. Een aanzienlijk deel van de gegevens dateert van vóór een fundamentele verandering in het gedrag van klanten.
Probleem 3: Gegevenslekken

Als we de lijst met kenmerken nader bekijken, blijkt er een kritiek probleem met de gegevenskwaliteit te zijn dat het model volledig zou ondermijnen.
Kennischeck: representativiteit van gegevens

Voordat we doorgaan met de beoordeling, een vraag over de regionale distributiekwestie.
Probleem 4: Onnodige persoonlijke gegevens

Het laatste deel van de review brengt een compliancerisico aan het licht dat verder reikt dan de AI Act en zich ook uitstrekt tot het GDPR-territorium.
Samenvatting van de recensie

Alice heeft de beoordeling van het gegevensbeheer voltooid. Er moeten vier kritieke problemen worden opgelost voordat de modeltraining kan doorgaan: Ernstige regionale ondervertegenwoordiging - 72% gegevens uit de regio Noord voor een model dat vier regio's in gelijke mate bedient. De dataset moet opnieuw worden gebalanceerd om alle implementatieregio's adequaat te vertegenwoordigen. Verouderde gegevens van vóór de pandemie - 38% van de records uit 2019-2020 weerspiegelt niet langer het huidige klantgedrag. Deze records moeten worden uitgesloten of op de juiste manier worden gewogen. Gegevenslekken - de account_status-functie codeert rechtstreeks de doelvariabele en moet worden verwijderd om kunstmatig opgeblazen trainingsnauwkeurigheid te voorkomen. Onnodige PII - onbewerkte namen, e-mails, telefoonnummers en adressen zorgen voor blootstelling aan de AVG zonder bij te dragen aan churn-voorspellingen. Deze velden moeten worden verwijderd of gepseudonimiseerd.
Dien een nalevingsrapport in

Het identificeren van hiaten is slechts de helft van het werk. Op grond van artikel 10 moet de beoordeling van het gegevensbeheer worden gedocumenteerd en doorgestuurd naar de AI-teamleider en de functionaris voor gegevensbescherming, zodat de modeltraining wordt onderbroken totdat de problemen zijn opgelost.
Dien het nalevingsrapport in

Alice vult het rapport in met de bevindingen, de vier hiaten in kaart gebracht in artikel 10 en AVG, en de acties die het AI-team moet voltooien voordat de training wordt hervat.

Wat is AI-gegevensbeheer?

Wat je leert in AI-gegevensbeheer

AI-gegevensbeheer — Trainingsstappen

Artikel 10: Gegevensbeheer

Verzoek om gegevenssetbeoordeling

Probleem 1: Regionale ondervertegenwoordiging

Probleem 2: Verouderde gegevens van vóór de pandemie

Probleem 3: Gegevenslekken

Kennischeck: representativiteit van gegevens

Probleem 4: Onnodige persoonlijke gegevens

Samenvatting van de recensie

Dien een nalevingsrapport in

Dien het nalevingsrapport in