Конспект выступления «Система управления базами знаний в контексте управления данными» (Алексей Незнанов)

Введение: данные, метаданные и качество

Управление данными (Data Management)

Опирается на базовую рамку DMBoK (DAMA), которая описывает процессы, роли и практики работы с данными.
Важнейшие аспекты:

Метаданные (описания данных, схемы, справочники),
Качество данных (полнота, корректность, актуальность и т. п.),
Мастер-данные (общие «опорные» данные для всей организации),
Трансформация и интеграция данных (ETL, Data-pipelines).

Роль метаданных

Метаданные — это «данные о данных»; они существуют на множестве уровней (от физических форматов до прикладных).
Именно метаданные обеспечивают согласованность и интероперабельность (совместимость) разных систем.

Документы, форматы, базы данных

Документ (первичный, вторичный) = блок данных, описанный реквизитами, форматом.
Переход к хранению данных (оперативных, исторических) в БД разных моделей (SQL, NoSQL, графовые и др.) порождает задачу гармонизации схем и метаданных.

Интероперабельность

Необходима при взаимодействии множества разнородных систем и форматов.
Семантическая интероперабельность (высший уровень) требует унифицированных терминов, единиц измерений и т. п. — здесь возникает потребность в формальных онтологиях.

2. Переход к «большим данным» и интеграции

Data Lake, Data Warehouse

Развитие от классических хранилищ к озёрам данных (Data Lake).
Появляются общие модели данных (пример: Common Data Model Microsoft), призванные унифицировать структуру для разных источников.

Мастер-данные и референсные данные

Эти «словарные» или «справочные» сущности фактически становятся частью онтологии.
Они обеспечивают «якорь» для понятия «качество данных»: без формальных справочников теряется единообразие.

Качество данных

Критический фактор в корпоративной среде: ошибки в данных = ошибки в принятии решений.
Стандарты (ISO, IEEE) описывают методы измерения качества (полнота, достоверность, актуальность и т. п.).

3. Онтологии: формализация знаний

Представление знаний и логики

От «спонтанной» текстовой спецификации понятий к формальной концептуализации (дескриптивные логики, OWL, Common Logic).
В больших корпорациях требуется явное описание домена: от единиц измерений до высокоуровневых бизнес-понятий.

Верхнеуровневые (Top-Level) онтологии

Пример: BFO (Basic Formal Ontology).
Содержат базовые категории: событие (event), процесс (process), материальное (material), нематериальное (immaterial entity) и т. п.
Нужны для стыковки разных прикладных (доменных) онтологий, задают «корень» для согласования смыслов.

Прикладные онтологии

От медицинских (HL7, SNOMED, FHIR) и нефтегазовых (ISO 15926) до собственных корпоративных для мастер-данных (Reference, Master Data).
Опираются на верхние онтологии, выделяют специфические классы, свойства, связки.

Семантические технологии (RDF/OWL/SHACL/… )

Позволяют хранить и обрабатывать знание как граф (Knowledge Graph).
Спарк, GQL, собственные языки запросов к семантическим графам и движки логического вывода (reasoners).

4. Хранение данных vs. хранение знаний

Почему нельзя все «слить» в один граф?

Промышленные решения требуют эффективного хранения огромных массивов одинаковых (или похожих) измерений/событий.
Хранить каждый атомический акт измерения как узел графа, снабжённый полным контекстом, крайне неэффективно (объёмы, задержки, многократный дублирующийся контекст).
На практике строят «иерархические» схемы хранения с агрегированием, а семантический слой (онтологию) используют для описания контекстов, шкал, единиц и проч.

Контейнерный подход

«Контейнер знаний» хранит ссылку на общий (иерархический) контекст измерений, устройств, времени/пространства (4D).
Один и тот же граф (верхний уровень) используется для описания домена, а большие массивы (временные ряды, логи датчиков) складываются оптимальным способом в таблицы или специальные СУБД.

Примеры крупных систем

Медицина (со стандартизацией HL7, FHIR, Arden Syntax и т. д.), нефтегаз (ISO 15926, Open O&G).
Классические коммерческие средства управления знаниями: PoolParty, Cambridgesemantics, Stardog, Collibra, TopBraid, и др. — все дают интеграцию «онтология + данные».

5. Выводы

Управление данными немыслимо без онтологий

В корпоративной практике при интеграции множества систем и форматов (Data Lakes, Master Data, витрины отчётности) мы нуждаемся в формальных описаниях (онтологиях), чтобы унифицировать понятия.

Стоимость формальных онтологий высока

Разработка полноценных индустриальных онтологий (например, в нефтегазе) обошлась компаниям в миллиарды долларов.
Поэтому широко используют базовые верхнеуровневые онтологии, открытые стандарты (BFO, ISO…), интеграционные решения (ETL, DataOps) с элементами семантики.

Логико-математические инструменты и reasoner-ы

Ключевые движки вывода (дескриптивные логики, причинно-следственные, нечёткие, темпоральные и т. п.) пока что в большинстве своём закрыты и очень дорогие.
Открытые варианты (Protégé, RDF Stores, Neo4j + расширения) есть, но обычно требуют серьёзной доработки или коммерческих плагинов.

Развитие ИИ ведёт к гибридизации

Большие языковые модели (LLM) и машинное обучение не отменяют потребности в явных онтологиях:

Для обеспечения точной интерпретации, контроля качества данных, надёжной интероперабельности систем.

Тренд: «semantic AI», где нейронные методы и семантические технологии (графы знаний) объединяются, чтобы повысить объяснимость (Explainable AI) и продуктивность.

Перспективы

Автоматизация формирования онтологий из неструктурированных данных (текста, изображений) уже идёт полным ходом.
Задачи расширенного контекста (измерения, пространство, время, шкалы) становятся стандартом.
В долгосрочной перспективе — гибридные мультиагентные системы, где «reasoner + ML + символьная логика + граф данных + онтологии» работают совместно для решения сложных задач в реальном времени.

Итог: онтологии и управление знаниями — это не отдельная интеллектуальная забава, а необходимая часть современной корпоративной экосистемы данных (Data Management). Без онтологии невозможно обеспечить полноценное качество, интеграцию (интероперабельность) и объяснимость решений, особенно при работе с многокомпонентными системами и «большими» объёмами данных.

Ссылки:

1. Видео семинара «Система управления базами знаний в контексте управления данными» - https://www.youtube.com/watch?v=5pxIDlKa46w&ab_channel=siberai