[Data Quality] Качество данных
1) Качество данных и метрики
2) Причины, примеры и управление КД
3) Измерение, мониторинг и исправление
4) MDM - Master data managment
*5) Свод знаний по управлению данными (DAMA-DMBOK)
1) Качество данных и метрики
Качество данных (от англ. Data Quality) — характеристика, показывающая степень пригодности данных к использованию.
На что влияет качество данных?
• Доверие к используемым данным
• Качество управленческих решений
• Эффективный маркетинг
• Удовлетворенность клиентов
• Снижение затрат / повышение маржинальности
• Регуляторные и репутационные риски
Оценка качества данных
• Completeness (полнота данных) : пропуски в данных
• Validity (валидность) : соответствие заданным стандартам
• Uniqueness (уникальность) : наличие дубликатов
• Consistensy (согласованность) : согласованность между наборами данных, (нет противоречий между двумя системами
• Referential integrity (ссылочная целостность) : значения внешнего ключа должны быть согласованы с соответствующими значениями первичного ключа
• Timeliness (своевременность) : актуальность на момент времени
• Accuracy (точность) : данные отражены верно (соответствуют действительности)
Проблемы качества данных
2) Причины, примеры и управление КД
2.1) Некачественные данные:
2.1.1) Пропуски (NULL)
2.1.2) Ошибочные данные
2.1.2.1) Неправильные типы данных, дубли
2.1.2.2) Нарушения ACID
2.1.2.2.1) Dirty Read (грязное чтение) - чтение незакомиченных данных
2.1.2.2.2) Non-Repetable
2.1.2.2.3) Lost-Repetable
2.1.2.2.4) Lost Update
2.1.2.2.5) Loss of transaction
2.1.2.3) Ошибки в датах и категориальных датах
2.1.3) Непригодные данные
2.1.3.1) Противоречивые (в разных источника)
2.1.3.2) Двусмысленные
2.1.3.1) Конкатенация, специальные символы, порядк слов, аббревиатуры
2.2) Причины возникновения
2.2.1) Человеческий фактор
2.2.2) Ошибки в коде (баги)
2.2.2.1) На стороне источника
2.2.2.2) На стороне хранилища
2.2.3) Инцеденты: падения, восстановление, потеря транзакций, незавершенные вычисления
2.2.4) Изменения в системах-источниках
2.2.5) Коллизии - конфликт бизнес-правил
2.2.6) Невозможно получить все изменения в источнике (Change Data Capture)
2.2.7) Ошибки в обработке SCD (Slowly changing dimensions)
2.2.8) Ошибки в построении ETL-процессов
2.2.9) Невозможность восстановить (рестартовать) ETL-процесс с чекпоинта без потери данных
2.3) Как обеспечить качество данных?
2.3.1) Проверить соответствие схемы источника и приемника данных
2.3.2) После batch выгрузки сравнить кол-во строк на источнике с кол-вом поступившим в хранилище
2.3.2)