February 24, 2021

[Data Quality] Качество данных

1) Качество данных и метрики
2) Причины, примеры и управление КД
3) Измерение, мониторинг и исправление
4) MDM - Master data managment
*5) Свод знаний по управлению данными (DAMA-DMBOK)

1) Качество данных и метрики


Качество данных (от англ. Data Quality) — характеристика, показывающая степень пригодности данных к использованию.

На что влияет качество данных?

•‎ Доверие к используемым данным
•‎ Качество управленческих решений
•‎ Эффективный маркетинг
•‎ Удовлетворенность клиентов
•‎ Снижение затрат / повышение маржинальности
•‎ Регуляторные и репутационные риски

Оценка качества данных

•‎ Completeness (полнота данных) : пропуски в данных
•‎ Validity (валидность) : соответствие заданным стандартам
•‎ Uniqueness (уникальность) : наличие дубликатов
•‎ Consistensy (согласованность) : согласованность между наборами данных, (нет противоречий между двумя системами
•‎ Referential integrity (ссылочная целостность) : значения внешнего ключа должны быть согласованы с соответствующими значениями первичного ключа
•‎ Timeliness (своевременность) : актуальность на момент времени
•‎ Accuracy (точность) : данные отражены верно (соответствуют действительности)

Проблемы качества данных

2) Причины, примеры и управление КД

2.1) Некачественные данные: 2.1.1) Пропуски (NULL)
2.1.2) Ошибочные данные
2.1.2.1) Неправильные типы данных, дубли
2.1.2.2) Нарушения ACID
2.1.2.2.1) Dirty Read (грязное чтение) - чтение незакомиченных данных
2.1.2.2.2) Non-Repetable
2.1.2.2.3) Lost-Repetable
2.1.2.2.4) Lost Update
2.1.2.2.5) Loss of transaction
2.1.2.3) Ошибки в датах и категориальных датах
2.1.3) Непригодные данные
2.1.3.1) Противоречивые (в разных источника)
2.1.3.2) Двусмысленные
2.1.3.1) Конкатенация, специальные символы, порядк слов, аббревиатуры

2.2) Причины возникновения
2.2.1) Человеческий фактор
2.2.2) Ошибки в коде (баги)
2.2.2.1) На стороне источника
2.2.2.2) На стороне хранилища
2.2.3) Инцеденты: падения, восстановление, потеря транзакций, незавершенные вычисления
2.2.4) Изменения в системах-источниках
2.2.5) Коллизии - конфликт бизнес-правил
2.2.6) Невозможно получить все изменения в источнике (Change Data Capture)
2.2.7) Ошибки в обработке SCD (Slowly changing dimensions)
2.2.8) Ошибки в построении ETL-процессов
2.2.9) Невозможность восстановить (рестартовать) ETL-процесс с чекпоинта без потери данных

2.3) Как обеспечить качество данных?


2.3.1) Проверить соответствие схемы источника и приемника данных
2.3.2) После batch выгрузки сравнить кол-во строк на источнике с кол-вом поступившим в хранилище
2.3.2)