January 17
Конспект выступления «Система управления базами знаний в контексте управления данными» (Алексей Незнанов)
Введение: данные, метаданные и качество
- Управление данными (Data Management)
- Опирается на базовую рамку DMBoK (DAMA), которая описывает процессы, роли и практики работы с данными.
- Важнейшие аспекты:
- Роль метаданных
- Метаданные — это «данные о данных»; они существуют на множестве уровней (от физических форматов до прикладных).
- Именно метаданные обеспечивают согласованность и интероперабельность (совместимость) разных систем.
- Документы, форматы, базы данных
- Документ (первичный, вторичный) = блок данных, описанный реквизитами, форматом.
- Переход к хранению данных (оперативных, исторических) в БД разных моделей (SQL, NoSQL, графовые и др.) порождает задачу гармонизации схем и метаданных.
- Интероперабельность
2. Переход к «большим данным» и интеграции
- Data Lake, Data Warehouse
- Развитие от классических хранилищ к озёрам данных (Data Lake).
- Появляются общие модели данных (пример: Common Data Model Microsoft), призванные унифицировать структуру для разных источников.
- Мастер-данные и референсные данные
- Эти «словарные» или «справочные» сущности фактически становятся частью онтологии.
- Они обеспечивают «якорь» для понятия «качество данных»: без формальных справочников теряется единообразие.
- Качество данных
3. Онтологии: формализация знаний
- Представление знаний и логики
- От «спонтанной» текстовой спецификации понятий к формальной концептуализации (дескриптивные логики, OWL, Common Logic).
- В больших корпорациях требуется явное описание домена: от единиц измерений до высокоуровневых бизнес-понятий.
- Верхнеуровневые (Top-Level) онтологии
- Пример: BFO (Basic Formal Ontology).
- Содержат базовые категории: событие (event), процесс (process), материальное (material), нематериальное (immaterial entity) и т. п.
- Нужны для стыковки разных прикладных (доменных) онтологий, задают «корень» для согласования смыслов.
- Прикладные онтологии
- От медицинских (HL7, SNOMED, FHIR) и нефтегазовых (ISO 15926) до собственных корпоративных для мастер-данных (Reference, Master Data).
- Опираются на верхние онтологии, выделяют специфические классы, свойства, связки.
- Семантические технологии (RDF/OWL/SHACL/… )
4. Хранение данных vs. хранение знаний
- Почему нельзя все «слить» в один граф?
- Промышленные решения требуют эффективного хранения огромных массивов одинаковых (или похожих) измерений/событий.
- Хранить каждый атомический акт измерения как узел графа, снабжённый полным контекстом, крайне неэффективно (объёмы, задержки, многократный дублирующийся контекст).
- На практике строят «иерархические» схемы хранения с агрегированием, а семантический слой (онтологию) используют для описания контекстов, шкал, единиц и проч.
- Контейнерный подход
- «Контейнер знаний» хранит ссылку на общий (иерархический) контекст измерений, устройств, времени/пространства (4D).
- Один и тот же граф (верхний уровень) используется для описания домена, а большие массивы (временные ряды, логи датчиков) складываются оптимальным способом в таблицы или специальные СУБД.
- Примеры крупных систем
- Управление данными немыслимо без онтологий
- В корпоративной практике при интеграции множества систем и форматов (Data Lakes, Master Data, витрины отчётности) мы нуждаемся в формальных описаниях (онтологиях), чтобы унифицировать понятия.
- Стоимость формальных онтологий высока
- Разработка полноценных индустриальных онтологий (например, в нефтегазе) обошлась компаниям в миллиарды долларов.
- Поэтому широко используют базовые верхнеуровневые онтологии, открытые стандарты (BFO, ISO…), интеграционные решения (ETL, DataOps) с элементами семантики.
- Логико-математические инструменты и reasoner-ы
- Ключевые движки вывода (дескриптивные логики, причинно-следственные, нечёткие, темпоральные и т. п.) пока что в большинстве своём закрыты и очень дорогие.
- Открытые варианты (Protégé, RDF Stores, Neo4j + расширения) есть, но обычно требуют серьёзной доработки или коммерческих плагинов.
- Развитие ИИ ведёт к гибридизации
- Большие языковые модели (LLM) и машинное обучение не отменяют потребности в явных онтологиях:
- Для обеспечения точной интерпретации, контроля качества данных, надёжной интероперабельности систем.
- Тренд: «semantic AI», где нейронные методы и семантические технологии (графы знаний) объединяются, чтобы повысить объяснимость (Explainable AI) и продуктивность.
- Перспективы
- Автоматизация формирования онтологий из неструктурированных данных (текста, изображений) уже идёт полным ходом.
- Задачи расширенного контекста (измерения, пространство, время, шкалы) становятся стандартом.
- В долгосрочной перспективе — гибридные мультиагентные системы, где «reasoner + ML + символьная логика + граф данных + онтологии» работают совместно для решения сложных задач в реальном времени.
Итог: онтологии и управление знаниями — это не отдельная интеллектуальная забава, а необходимая часть современной корпоративной экосистемы данных (Data Management). Без онтологии невозможно обеспечить полноценное качество, интеграцию (интероперабельность) и объяснимость решений, особенно при работе с многокомпонентными системами и «большими» объёмами данных.
1. Видео семинара «Система управления базами знаний в контексте управления данными» - https://www.youtube.com/watch?v=5pxIDlKa46w&ab_channel=siberai