What does Article 10 of the EU AI Act require for training data?

Article 10 requires that training, validation, and testing data for high-risk AI systems be relevant, sufficiently representative of the deployment population, as free of errors as possible, and appropriate to the intended purpose. Data governance practices must also address potential biases.

What is data leakage in AI training?

Data leakage occurs when the training data contains information that would not be available at prediction time. This causes artificially high accuracy during training that collapses in production, because the model learned to rely on information it will never have when making real predictions.

How do GDPR and the EU AI Act intersect on training data?

The EU AI Act's data governance requirements complement GDPR obligations. Including unnecessary personal data in training datasets violates GDPR's data minimization principle and creates additional compliance risk on top of AI Act obligations. Only data directly relevant to the model's task should be included.

Управління даними AI

Review training data quality against EU AI Act Article 10 requirements.

Що таке Управління даними AI?

Дізнайтеся, як стаття 10 Закону ЄС про штучний інтелект встановлює вимоги до керування даними для систем штучного інтелекту з високим рівнем ризику. Перевірте набір навчальних даних на репрезентативність, якість даних, витік і непотрібні персональні дані, перш ніж можна буде продовжити навчання моделі.

Що ви дізнаєтесь у Управління даними AI

Зрозуміти вимоги статті 10 щодо якості навчальних даних у системах ШІ з високим ризиком
Визначте проблеми з репрезентативністю даних, які можуть призвести до упереджених прогнозів ШІ
Розпізнайте витік даних, який штучно завищує продуктивність моделі
Застосовуйте принципи мінімізації даних, щоб зменшити ризик відповідності GDPR у навчальних даних ШІ
Задокументуйте висновки щодо керування даними відповідно до вимог ШІ з високим ризиком

Управління даними AI — Кроки навчання

Стаття 10: Управління даними

Стаття 10 Закону ЄС про штучний інтелект встановлює вимоги до керування даними для систем ШІ високого ризику. Дані навчання, перевірки та тестування мають відповідати суворим критеріям якості: Дані мають бути релевантними для завдання, яке розроблено системою штучного інтелекту. Дані мають бути достатньо репрезентативними для населення, яке обслуговуватиме модель. Дані мають бути якомога вільнішими від помилок і відповідати передбачуваній меті. Практики керування даними мають вирішувати потенційні упередження , які можуть призвести до дискримінаційних результатів. Погані дані призводять до упередженого ШІ, а упереджений ШІ призводить до юридичної відповідальності. Управління даними не є найкращою практикою відповідно до Закону ЄС про штучний інтелект – це юридичне зобов’язання.
Запит на перевірку набору даних

Електронний лист надходить від Маркуса Родрігеса, керівника групи штучного інтелекту. Команда готується до навчання ChurnPredict v3, і перед початком навчання необхідно перевірити набір даних на відповідність. Електронний лист містить пряме посилання на набір даних на платформі DataOps.
Питання 1: Недопредставленість регіонів

Платформа DataOps завантажує огляд набору даних ChurnPredict v3. Регіональний розподіл навчальних даних одразу виділяється – набір даних значною мірою зосереджений в одному регіоні, незважаючи на те, що модель розроблена таким чином, щоб однаково обслуговувати всі чотири.
Проблема 2: Застарілі дані до пандемії

Графік збору даних викликає ще одну проблему. Значна частина записів датується до фундаментальних змін у поведінці клієнтів.
Проблема 3: Витік даних

Уважніший погляд на список функцій виявляє критичну проблему якості даних, яка повністю підірвала б модель.
Перевірка знань: Репрезентативність даних

Перш ніж продовжити огляд, питання щодо регіонального розподілу.
Проблема 4: непотрібні особисті дані

Останній розділ огляду розкриває ризик відповідності, який поширюється за межі Закону про штучний інтелект на територію GDPR.
Короткий огляд

Аліса завершила перевірку управління даними. Перш ніж можна буде продовжити навчання моделі, необхідно вирішити чотири важливі проблеми: Сильна регіональна недостатність – 72% даних північного регіону для моделі, яка однаково обслуговує 4 регіони. Набір даних потрібно перебалансувати, щоб належним чином представляти всі регіони розгортання. Застарілі дані до пандемії – 38% записів за 2019–2020 роки більше не відображають поточну поведінку клієнтів. Ці записи слід виключити або зважити належним чином. Витік даних – функція account_status безпосередньо кодує цільову змінну, і її потрібно видалити, щоб запобігти штучному завищенню точності навчання. Непотрібна ідентифікаційна інформація – необроблені імена, електронні адреси, номери телефонів і адреси створюють ризик GDPR, не сприяючи прогнозу відтоку. Ці поля потрібно видалити або псевдонімізувати.
Подайте звіт про відповідність

Виявлення прогалин – це лише половина справи. Згідно зі статтею 10 перевірка управління даними має бути задокументована та направлена до керівника групи штучного інтелекту та спеціаліста із захисту даних, тому навчання моделі призупиняється, доки проблеми не будуть вирішені.
Надішліть звіт про відповідність

Аліса заповнює звіт із висновками, чотирма прогалинами, пов’язаними зі статтею 10 і GDPR, і діями, які команда штучного інтелекту має виконати перед відновленням навчання.

Що таке Управління даними AI?

Що ви дізнаєтесь у Управління даними AI

Управління даними AI — Кроки навчання

Стаття 10: Управління даними

Запит на перевірку набору даних

Питання 1: Недопредставленість регіонів

Проблема 2: Застарілі дані до пандемії

Проблема 3: Витік даних

Перевірка знань: Репрезентативність даних

Проблема 4: непотрібні особисті дані

Короткий огляд

Подайте звіт про відповідність

Надішліть звіт про відповідність