Управління даними AI
Review training data quality against EU AI Act Article 10 requirements.
Що таке Управління даними AI?
Дізнайтеся, як стаття 10 Закону ЄС про штучний інтелект встановлює вимоги до керування даними для систем штучного інтелекту з високим рівнем ризику. Перевірте набір навчальних даних на репрезентативність, якість даних, витік і непотрібні персональні дані, перш ніж можна буде продовжити навчання моделі.
Що ви дізнаєтесь у Управління даними AI
- Зрозуміти вимоги статті 10 щодо якості навчальних даних у системах ШІ з високим ризиком
- Визначте проблеми з репрезентативністю даних, які можуть призвести до упереджених прогнозів ШІ
- Розпізнайте витік даних, який штучно завищує продуктивність моделі
- Застосовуйте принципи мінімізації даних, щоб зменшити ризик відповідності GDPR у навчальних даних ШІ
- Задокументуйте висновки щодо керування даними відповідно до вимог ШІ з високим ризиком
Управління даними AI — Кроки навчання
-
Стаття 10: Управління даними
Стаття 10 Закону ЄС про штучний інтелект встановлює вимоги до керування даними для систем ШІ високого ризику. Дані навчання, перевірки та тестування мають відповідати суворим критеріям якості: Дані мають бути релевантними для завдання, яке розроблено системою штучного інтелекту. Дані мають бути достатньо репрезентативними для населення, яке обслуговуватиме модель. Дані мають бути якомога вільнішими від помилок і відповідати передбачуваній меті. Практики керування даними мають вирішувати потенційні упередження , які можуть призвести до дискримінаційних результатів. Погані дані призводять до упередженого ШІ, а упереджений ШІ призводить до юридичної відповідальності. Управління даними не є найкращою практикою відповідно до Закону ЄС про штучний інтелект – це юридичне зобов’язання.
-
Запит на перевірку набору даних
Електронний лист надходить від Маркуса Родрігеса, керівника групи штучного інтелекту. Команда готується до навчання ChurnPredict v3, і перед початком навчання необхідно перевірити набір даних на відповідність. Електронний лист містить пряме посилання на набір даних на платформі DataOps.
-
Питання 1: Недопредставленість регіонів
Платформа DataOps завантажує огляд набору даних ChurnPredict v3. Регіональний розподіл навчальних даних одразу виділяється – набір даних значною мірою зосереджений в одному регіоні, незважаючи на те, що модель розроблена таким чином, щоб однаково обслуговувати всі чотири.
-
Проблема 2: Застарілі дані до пандемії
Графік збору даних викликає ще одну проблему. Значна частина записів датується до фундаментальних змін у поведінці клієнтів.
-
Проблема 3: Витік даних
Уважніший погляд на список функцій виявляє критичну проблему якості даних, яка повністю підірвала б модель.
-
Перевірка знань: Репрезентативність даних
Перш ніж продовжити огляд, питання щодо регіонального розподілу.
-
Проблема 4: непотрібні особисті дані
Останній розділ огляду розкриває ризик відповідності, який поширюється за межі Закону про штучний інтелект на територію GDPR.
-
Короткий огляд
Аліса завершила перевірку управління даними. Перш ніж можна буде продовжити навчання моделі, необхідно вирішити чотири важливі проблеми: Сильна регіональна недостатність – 72% даних північного регіону для моделі, яка однаково обслуговує 4 регіони. Набір даних потрібно перебалансувати, щоб належним чином представляти всі регіони розгортання. Застарілі дані до пандемії – 38% записів за 2019–2020 роки більше не відображають поточну поведінку клієнтів. Ці записи слід виключити або зважити належним чином. Витік даних – функція account_status безпосередньо кодує цільову змінну, і її потрібно видалити, щоб запобігти штучному завищенню точності навчання. Непотрібна ідентифікаційна інформація – необроблені імена, електронні адреси, номери телефонів і адреси створюють ризик GDPR, не сприяючи прогнозу відтоку. Ці поля потрібно видалити або псевдонімізувати.
-
Подайте звіт про відповідність
Виявлення прогалин – це лише половина справи. Згідно зі статтею 10 перевірка управління даними має бути задокументована та направлена до керівника групи штучного інтелекту та спеціаліста із захисту даних, тому навчання моделі призупиняється, доки проблеми не будуть вирішені.
-
Надішліть звіт про відповідність
Аліса заповнює звіт із висновками, чотирма прогалинами, пов’язаними зі статтею 10 і GDPR, і діями, які команда штучного інтелекту має виконати перед відновленням навчання.