January 17

Конспект выступления «Система управления базами знаний в контексте управления данными» (Алексей Незнанов)

Введение: данные, метаданные и качество

  1. Управление данными (Data Management)
    • Опирается на базовую рамку DMBoK (DAMA), которая описывает процессы, роли и практики работы с данными.
    • Важнейшие аспекты:
      • Метаданные (описания данных, схемы, справочники),
      • Качество данных (полнота, корректность, актуальность и т. п.),
      • Мастер-данные (общие «опорные» данные для всей организации),
      • Трансформация и интеграция данных (ETL, Data-pipelines).
  2. Роль метаданных
    • Метаданные — это «данные о данных»; они существуют на множестве уровней (от физических форматов до прикладных).
    • Именно метаданные обеспечивают согласованность и интероперабельность (совместимость) разных систем.
  3. Документы, форматы, базы данных
    • Документ (первичный, вторичный) = блок данных, описанный реквизитами, форматом.
    • Переход к хранению данных (оперативных, исторических) в БД разных моделей (SQL, NoSQL, графовые и др.) порождает задачу гармонизации схем и метаданных.
  4. Интероперабельность
    • Необходима при взаимодействии множества разнородных систем и форматов.
    • Семантическая интероперабельность (высший уровень) требует унифицированных терминов, единиц измерений и т. п. — здесь возникает потребность в формальных онтологиях.

2. Переход к «большим данным» и интеграции

  1. Data Lake, Data Warehouse
    • Развитие от классических хранилищ к озёрам данных (Data Lake).
    • Появляются общие модели данных (пример: Common Data Model Microsoft), призванные унифицировать структуру для разных источников.
  2. Мастер-данные и референсные данные
    • Эти «словарные» или «справочные» сущности фактически становятся частью онтологии.
    • Они обеспечивают «якорь» для понятия «качество данных»: без формальных справочников теряется единообразие.
  3. Качество данных
    • Критический фактор в корпоративной среде: ошибки в данных = ошибки в принятии решений.
    • Стандарты (ISO, IEEE) описывают методы измерения качества (полнота, достоверность, актуальность и т. п.).

3. Онтологии: формализация знаний

  1. Представление знаний и логики
    • От «спонтанной» текстовой спецификации понятий к формальной концептуализации (дескриптивные логики, OWL, Common Logic).
    • В больших корпорациях требуется явное описание домена: от единиц измерений до высокоуровневых бизнес-понятий.
  2. Верхнеуровневые (Top-Level) онтологии
    • Пример: BFO (Basic Formal Ontology).
    • Содержат базовые категории: событие (event), процесс (process), материальное (material), нематериальное (immaterial entity) и т. п.
    • Нужны для стыковки разных прикладных (доменных) онтологий, задают «корень» для согласования смыслов.
  3. Прикладные онтологии
    • От медицинских (HL7, SNOMED, FHIR) и нефтегазовых (ISO 15926) до собственных корпоративных для мастер-данных (Reference, Master Data).
    • Опираются на верхние онтологии, выделяют специфические классы, свойства, связки.
  4. Семантические технологии (RDF/OWL/SHACL/… )
    • Позволяют хранить и обрабатывать знание как граф (Knowledge Graph).
    • Спарк, GQL, собственные языки запросов к семантическим графам и движки логического вывода (reasoners).

4. Хранение данных vs. хранение знаний

  1. Почему нельзя все «слить» в один граф?
    • Промышленные решения требуют эффективного хранения огромных массивов одинаковых (или похожих) измерений/событий.
    • Хранить каждый атомический акт измерения как узел графа, снабжённый полным контекстом, крайне неэффективно (объёмы, задержки, многократный дублирующийся контекст).
    • На практике строят «иерархические» схемы хранения с агрегированием, а семантический слой (онтологию) используют для описания контекстов, шкал, единиц и проч.
  2. Контейнерный подход
    • «Контейнер знаний» хранит ссылку на общий (иерархический) контекст измерений, устройств, времени/пространства (4D).
    • Один и тот же граф (верхний уровень) используется для описания домена, а большие массивы (временные ряды, логи датчиков) складываются оптимальным способом в таблицы или специальные СУБД.
  3. Примеры крупных систем
    • Медицина (со стандартизацией HL7, FHIR, Arden Syntax и т. д.), нефтегаз (ISO 15926, Open O&G).
    • Классические коммерческие средства управления знаниями: PoolParty, Cambridgesemantics, Stardog, Collibra, TopBraid, и др. — все дают интеграцию «онтология + данные».

5. Выводы

  1. Управление данными немыслимо без онтологий
    • В корпоративной практике при интеграции множества систем и форматов (Data Lakes, Master Data, витрины отчётности) мы нуждаемся в формальных описаниях (онтологиях), чтобы унифицировать понятия.
  2. Стоимость формальных онтологий высока
    • Разработка полноценных индустриальных онтологий (например, в нефтегазе) обошлась компаниям в миллиарды долларов.
    • Поэтому широко используют базовые верхнеуровневые онтологии, открытые стандарты (BFO, ISO…), интеграционные решения (ETL, DataOps) с элементами семантики.
  3. Логико-математические инструменты и reasoner-ы
    • Ключевые движки вывода (дескриптивные логики, причинно-следственные, нечёткие, темпоральные и т. п.) пока что в большинстве своём закрыты и очень дорогие.
    • Открытые варианты (Protégé, RDF Stores, Neo4j + расширения) есть, но обычно требуют серьёзной доработки или коммерческих плагинов.
  4. Развитие ИИ ведёт к гибридизации
    • Большие языковые модели (LLM) и машинное обучение не отменяют потребности в явных онтологиях:
      • Для обеспечения точной интерпретации, контроля качества данных, надёжной интероперабельности систем.
    • Тренд: «semantic AI», где нейронные методы и семантические технологии (графы знаний) объединяются, чтобы повысить объяснимость (Explainable AI) и продуктивность.
  5. Перспективы
    • Автоматизация формирования онтологий из неструктурированных данных (текста, изображений) уже идёт полным ходом.
    • Задачи расширенного контекста (измерения, пространство, время, шкалы) становятся стандартом.
    • В долгосрочной перспективе — гибридные мультиагентные системы, где «reasoner + ML + символьная логика + граф данных + онтологии» работают совместно для решения сложных задач в реальном времени.

Итог: онтологии и управление знаниями — это не отдельная интеллектуальная забава, а необходимая часть современной корпоративной экосистемы данных (Data Management). Без онтологии невозможно обеспечить полноценное качество, интеграцию (интероперабельность) и объяснимость решений, особенно при работе с многокомпонентными системами и «большими» объёмами данных.

Ссылки:

1.       Видео семинара «Система управления базами знаний в контексте управления данными» - https://www.youtube.com/watch?v=5pxIDlKa46w&ab_channel=siberai