Графы знаний
December 16, 2023

Как использовать возможности графа знаний и семантических технологий в компании

«Наша компания работает в определенной индустрии, создавая конкретную ценность для определенного круга потребителей». Если вы так сказали, то онтологически выделили в реальности бесконечного мира свой локальный контекст, где вы ведете свою деятельность.

Во время своей работы вы взаимодействуете с этой реальностью и генерируете данные — задача которых представить объекты и процессы реального мира в корпоративной цифровой модели, поведение которой должно уметь предсказывать поведение реального мира. Граф знаний — это инструмент, который помогает вам: он хранит и представляет бизнес-модели, клиентов, продукты, персонал, процессы и контролирует обязательства.

Проблема данных

Сегодня многие компании сталкиваются с проблемой данных, которые возникают из-за большого объема и технологической фрагментации.

Несоответствие данных

Значения данных об одном и том же объекте (например о клиенте и его операциях) в разных системах, базах данных и операционных границах не соответствуют друг другу. Это происходит потому, что разные отделы компании используют разное ПО (в бухгалтерии 1С, в продажах SRM Bitrix24), где данные преобразовывают и переименовывают в соответствии с требованиями этих приложений.

Никто специально это «несоответствие данных» не создает, оно появляется очень естественно и «самостоятельно», потому что мы стремимся управлять контекстом между различными интересами, моделями и рабочим софтом фронт-офиса (связанными с транзакциями и маркетингом) и бэк-офиса (учет финансовых, юридических, процедурных и аналитических требований).

Ограничения реляционных СУБД

Эти проприетарные технологии (зависят от воли одного поставщика), что еще 2 поколения назад были передовыми, стали настоящим препятствием для работы в быстро меняющемся мире. В реляционных базах данных данные организованы в столбцы и хранятся в таблицах, связанных друг с другом с помощью внутренних ключей.

Проблема в том, что со временем в любой компании в тысячах таблиц появляются конфликтующие имена столбцов со структурированными связями, которые были созданы давно и уже устарели.

В результате мы тратим значительные усилия на перемещение данных из одного места в другое и бесчисленное количество человеко-часов на согласование данных и их значения.

Мы позволили данным стать изолированными, несовместимыми и негибкими из-за
технологической фрагментации и жесткой технологической среды. Это отвлекает ресурсы компании от бизнес-целей, увеличивает время окупаемости инвестиций в технологии и ограничивает аналитическую гибкость. Это приводит к разочарованию и способствует
росту недоверия подразделений внутри организации.

Чтобы решить эти проблемы, нужно исправить свою модель работы с данными, и это не требует больших инвестиций в новые технологии или отказа от использования текущей IT-инфраструктуры.

Существует проверенный и доступный путь: принять стандарты работы с данными и использовать преимуществами семантических стандартов для обеспечения согласованности, точности и учета контекстов значений данных по мере того, как они проходят через ваши бизнес-процессы. Только так можно превратить данные из «проблемы, которой нужно управлять», в данные как «актив для роста капитализации знаний».

Далее вы поймете, что эта концепция «информационной грамотности» проста для понимания и достойна встраиванию в модель цифровой трансформации компании.

4 главных элемента графа знаний и семантических стандартов

Подход к поиску, интерпретации и связыванию данных теперь технологически доступен многим компаниями и организациями, которые уже используют его для гармонизации всех своих данных, устранения рисков и извлечения выгоды из новых возможностей.

Условия для построения графов знаний

Уникальный идентификатор ресурса (URL)

Управление знаниями начинается с идентификации. В графе знаний все объекты идентифицируются по крайней мере одним универсальным, уникальным, постоянным и разрешаемым в Интернете идентификатором в форме интернационализированного идентификатора ресурса (URL), он просто представляет элемент данных и указывает на место его размещения в сети.

Вместо того, чтобы загружать копии базы данных, управлять таблицами перекрестных ссылок,
обновлять API и управлять всем набором тестов, вы просто указываете URL. Это устраняет
задачу перемещения и сопоставления данных, потому что весь контент в вашей организации связан с собственным уникальным (никогда не меняющимся) идентификатором.

Значение данных (смысл, онтология)

Одной из причин «проблемы данных» является то, что данные многократно модифицировались, преобразовывались и переименовывались в течение своего жизненного цикла.

Обеспечение единого представления данных является сложной задачей, поскольку они могут находиться в различных СУБД, иметь различные структуры данных, определения и контекстуальные значения. Поэтому проекты интеграции информационных систем и данных как правило сложные и дорогие, особенно при наличии десятков систем учета, обслуживающих различные операционные процессы и независимые направления бизнеса.

Процесс согласования глоссариев, отражающих терминологию различных специализированных приложений, сложен и лучше всего выполняется с использованием процессов моделирования и стандартов контента, которые описывают значения данных и типы связей понятий предметной области.

Как раз для этого используют онтологии как метод моделирования и обмена данными, который используется для обеспечения общего понимания требований между заинтересованными сторонами бизнеса и разработчиками приложений.

Метод онтологий позволяет вам зафиксировать основные концепции и отношения, определенные экспертами в вашей индустрии или предметной области. С этого момента открывается путь к формализации знаний компании, а улучшенный и быстрый поиск, интерпретация и связывание данных теперь может использоваться для гармонизации данных, устранения рисков и использования возможностей.

Стандарт Semantic Web использует концептуальные модели данных для точного
описания того, что означают данные, а также того, как понятия связаны между собой.

Значение каждой точки данных напрямую преобразуется в машиночитаемое
определение. Онтологии связаны с таксономиями (глоссариями терминов), которые можно напрямую преобразовать в физические структуры данных.

Свойства в каждой точке данных связаны с их определением, поэтому значение никогда не вызывает сомнений.

Выражение данных на детальном уровне обеспечивает максимальную гибкость для их
«нарезки» (разделения на элементы), объединения и агрегирования.

Бизнес-правила (SBVR, SHACL)

SHACL (Shapes Constraint Language) — язык ограничений фигур, используется для проверки графов RDF на соответствие набору условий. Эти условия предоставляются в виде форм и других конструкций, выраженных в виде RDF-графа.

SBVR (Semantics of Business Vocabulary and Business Rules) — основа для формального и подробного декларативного описания сложного объекта (например такого, как бизнес) на естественном языке. Эти правила необходимы для того, чтобы данные соответствовали назначению в контексте вашего бизнеса.

Факт – это предположение, которое бизнес считает истинным. Люди сообщают друг другу факты, то есть факт является единицей общения. Ориентированный на факты подход позволяет проводить многомерную категоризацию, а так же:

  • поддерживает изменчивость времени;
  • обеспечивает семантическую устойчивость;
  • обеспечивает расширяемость и повторное использование;
  • предполагает разбиение составных типов фактов на элементарные (атомарные).

Сфера бизнеса ( пространство дискурса) включает в себя те аспекты бизнеса, которые представляют интерес вовлеченных сторон, а формализация описывает предметную область бизнеса и состоит из:

  • концептуальной схемы (структуры фактов);
  • совокупности основных фактов

Схема объявляет соответствующие типы фактов (виды основных фактов, например, сотрудник работает в отделе ) и соответствующие бизнес-правила (обычно ограничения или правила вывода).

Эти «условные выражения» устанавливаются в соответствии с критериями, установленными экспертами в предметной области, и преобразуются в множество типов правил, от простых до сложных:

  • правила проверки,
  • правила расчета,
  • правила классификации,
  • правила преобразования,
  • правила рабочего процесса,
  • правила определений

Правила могут быть выражены на естественном языке и сохранены в графе знаний. Они связаны с качеством данных и процессов, а также с онтологиями, чтобы гарантировать, что значение разделяется всеми заинтересованными сторонами, а не затемняется расплывчатыми терминами или загадочными кодами. Логика фиксируется и выражается в виде исполняемых моделей и последовательно применяется во всех системах и процессах.

Хранилище триплетов (RDF, OWL)

Большим вкладом консорциума W3C стал переход от данных, которые «основаны на местоположении» в виде связанной пары, хранящейся в таблицах, к данным, которые «основаны на значении» на языке хранилища триплетов в сети Интернет.

Ценность триплетов (троек) в их простоте, универсальности и привычной нам языковой модели. Это просто структура простого предложения: подлежащее — сказуемое — определение. Это минимальный элемент смысла, «кубик лего» нашего общения. Все ваши данные в корпоративном графе знаний будут организованы в группы по три элемента, каждая группа содержат субъекты и объекты, связанные друг с другом предикатом (глаголом).

Пример элемента смысла в графе знаний

Все эти понятия точно определены на основе знаний экспертов в предметной области в форме онтологии. И как только вы определите эти понятия на самом атомарном уровне, вы сможете связать их вместе. Эти онтологии связывают значение данных с таксономиями или глоссариями, которые могут быть непосредственно переведены в физические структуры данных, чтобы
управлять всеми корпоративными приложениями. Так создается настоящая незримая связность ваших данных, смыслов и всей компании.

8 основных возможностей графов знаний

Используя 4 строительных блока, описанных выше, граф знаний предоставляет 8 основных возможностей, которые вместе создают ценность для бизнеса:

  • 1. Логико-математический аппарат автоматической проверки на истинность;
  • 2. Многократное повторное использование онтологий, концепций, моделей, данных;
  • 3. Поддержка корпоративного и отраслевого контекста;
  • 4. Управление доступом;
  • 5. Мониторинг данных на всем жизненном цикле;
  • 6. Упрощение управления и администрирования;
  • 7. Машиночитаемый код, понятный человеку;
  • 8. Моделирование сценариев и непрерывное тестирование

Логико-математический аппарат автоматической проверки на истинность

В графе знаний данные приведены в соответствие с точным значением и встроены в структуру самого контента, чтобы пользователи всегда знали, что представляют собой данные, даже когда они перемещаются за пределы организации.

Это означает, что ошибки и конфликты определений на истинность проверяются в первоисточнике прежде, чем они будут введены в другие приложения. Качество основано на правилах и не привязаны как к схемам, так и к моделям данных, и могут быть адаптированы для конкретных приложений.

Правила связаны со структурированными словарями (таксономиями) и привязаны к уникальному URL, чтобы гарантировать, что любое значение может быть обнаружено и доступно для совместного использования.

Целью является автоматизированный контроль качества. Это происходит на элементарном уровне, чтобы пользователи были уверены, что получают точную информацию с учетом контекста специфических вопросов вашей индустрии. А с точки зрения соответствия, история данных на графе неизменяемая, поэтому можно проследить весь жизненный цикл элемента данных и ничего нельзя удалить, кроме как с помощью орг.политики.

Повторное использование концепций ускоряет моделирование

Одной из проблем, связанных с традиционным проектированием базы данных, является проблема «жестко закодированных предположений» (т.е. выполнение одних и тех же действий немного другим способом на основе какой-либо цели проектирования).

Инженеры и архитекторы часто делают явные предположения о своей предметной области и
кодируют их непосредственно в своих приложениях. Жесткое кодирование этих вариантов дизайна на языке программирования затрудняет их поиск и изменение, особенно при отсутствии
документации или опыта программирования. И потом любое изменение бизнес-модели или процесса приводит к конфликту, потому что его невозможно внести в структуру данных без серьезной перестройки всей структуры данных.

Использование семантических технологий и онтологий для моделирования устраняет проблему жесткого кодирования, поскольку оно фокусируется на концепциях, а не на конкретных приложениях.

Пользователи всегда понимают, что представляют собой данные в самой детализированной
форме. Это позволяет повторно использовать важные концепции в системах и
процессах.

Рассмотрим пример использования такой концепции, как время. В разных предметных областях требуются разные способы моделирования времени, включая понятия временных интервалов, моментов времени и относительных мер времени.

В подробной онтологии фиксируются все стандарты и концепции времени, так что подходящее измерение может быть выбрано по мере необходимости, а не заново изобретаться инженером для конкретного приложения.

Поддержка корпоративного и отраслевого контекста

Семантические стандарты позволяют информационным архитекторам отделить бизнес-логику от кода. Бизнес-логику можно выразить, просто взглянув на то, что представляет собой
элемент данных. С семантическими стандартами мы можем понимать все данные в контексте,
исследуя связи 4х измерений: идентичности, значения, времени и источника данных.

Управление доступом

Технология, которая предоставляет и обеспечивает права доступа к данным, должна управляться на уровне данных, платформы, приложений и ролей.

Правила предоставления прав и контроля доступа должны быть связаны с процессами происхождения и преобразования данных, постоянно отслеживаться и проверяться. Это обязательно для управления безопасностью и обеспечения конфиденциальности и должно
синхронизироваться по мере того, как сотрудники перемещаются между отделами и выполняют различные роли.

Проблема в том, что многие системы замыкаются на своих правилах разграничения доступа, каждая со своим собственным выражением полномочий, что ограничивает возможность маневра внутри компании между разными системами и политикой разграничения доступа и безопасности данных.

Эта проблема ложиться огромным, сложным и беспорядочным административным бременем на ИТ-службу компании при попытке настроить глобальные права доступа во всех технологических средах компании.

Граф знаний способен решить эту дилемму, моделируя бизнес-правила в контексте компании для всех ролей и обстоятельств. Граф автоматически поддерживает эти модели, назначая управление доступом на уровне данных и приложений. Безопасность встроена в структуру данных и не ограничивается ни системами, ни административными сложностями.

Отслеживание происхождения данных на всем жизненном цикле

В графе знаний все данные связаны с одним идентификатором. Это означает, что компании могут отслеживать данные по мере их прохождения через ИТ-системы. Специалисты по данным и бизнес-пользователи знают, что представляют собой данные, а также как они используются в процессе производства данных.

Данные можно многократно преобразовывать и переименовывать по мере их передачи между системами, не теряя сведений о том, откуда они пришли, что представляют собой и куда направляются. Цели по происхождению данных назначаются автоматически, полностью и постоянно проверяются. Граф знаний становится хабом, поскольку он отслеживает поток данных и полностью поддается аудиту по источнику, цели и ответственной стороне.

Упрощение управления

Граф знаний использует возможности разрешимой идентификации, точного значения, структурной проверки и отслеживания происхождения, чтобы сместить фокус управления с согласования данных на автоматизированные приложения для обработки данных.

С помощью семантических стандартов компания может создавать связанный перечень данных:

  • что существует,
  • как это классифицируются,
  • где находится,
  • кто несет ответственность,
  • как они используются и
  • как они перемещаются по системам.

Данные прослеживаются для всех приложений, что позволяет пользователям выполнять
гибкие запросы и контекстный поиск.

Качество данных обеспечивается структурно, на уровне согласованности между репозиториями. Проблемы идентифицируются онтологией и могут быть решены, когда и где они возникают. Граф знаний изменяет операционную модель управления, упрощая операции, автоматизируя
управление проблемами и облегчая совместную среду для интеграционного тестирования.

Машиночитаемый код, понятный человеку

Семантические стандарты написаны на языке, понятном как людям, так и машинам. Значение данных стандартизировано на детальном уровне. Данные связаны с машинно-исполняемыми правилами с контрольными журналами. Политики могут быть смоделированы как машинно-исполняемые правила.

Семантические стандарты основаны на правилах и не связаны с данными. Использование машино-читаемых стандартов облегчает автоматическую проверку и обеспечивает гарантию качества данных.

Моделирование сценариев и непрерывное тестирование

На графе знаний требования, варианты использования и индивидуальные цели пользователей связаны с автоматизированными процедурами тестирования и управлением проблемами.

Все конвейеры данных имеют полное и структурированное тестовое покрытие для каждого изменения. Без автоматизации стоимость внедрения новых компонентов и новых функций очень высока.

С семантическими стандартами каждое изменение в онтологии связано с процессом тестирования непротиворечивости на уровне логики. Когда запускается автоматизированный процесс управления изменениями и в авторитетные источники вносятся изменения, система отслеживает и проверяет все последствия и их влияния на модель.

Манифест о капитализации знаний

Эти 4 открытых стандарта приводят к 8 основополагающим возможностям, которые можно
описать как «Манифест о капитализации знаний». Знания вашей компании выростают из специально обработанных данных, которые превращаются в актив, повышающий капитализацию компании. С семантическими технологиями вы вправе ожидать, что ваши данные:

  • будут соответствовать первоначальным намерениям их генерирования;
  • будут определены и описаны на атомарном уровне;
  • будут иметь возможность многократного повторного использования;
  • будут доступны всегда, когда это необходимо, как часть ваших важнейших активов;
  • будут находиться в гибком для использования формате, а не в жестких схемах;
  • можно будет отслеживать по мере их прохождения между процессами и тестировать по
    назначению.

С семантическими стандартами все эти права достижимы без огромных инвестиций в
технологии или серьезных изменений в том, как работает ваша организация.

Эти ценные возможности всегда найдут отклик у заинтересованных лиц вашей компании:

  • Владельцев и СЕО, которые думают о росте и скорости,
  • Руководителей по технологиям, которые думают об отказоустойчивости и масштабируемости
  • Руководителей продукта, которые думают о вариантах использования и времени выхода на рынок,
  • Руководителей по качеству, которые думают о прозрачности и контролю

Снижаем затраты

Мы начинаем с фактической определенности. Это необходимое условие для интеграции
данных — мы упрощаем, стандартизируя значение, разрешая идентичность и отслеживая поток данных. С фактической уверенностью мы точно знаем, что представляют данные в контексте бизнеса компании. Это позволяет нам создавать связанные реестры активов, чтобы лучше распределять их.
Ресурсы. Это позволяет нам автоматизировать процессы за счет сокращения согласования и уменьшения сбоев процесса. Это позволяет нам консолидировать и масштабировать системы и поддерживать усилия по упрощению управления данными. По скромным подсчетам, такая экономия затрат может составить не менее 30% от общего объема операций.

Используем новые возможности

Речь идет о понимании отношений для лучшего профилирования клиентов и предиктивного маркетинга, о гибких исследованиях, предоставляющих бизнес-аналитикам инструменты, необходимые им для улучшения всех продуктовых метрик.

Принятие семантических стандартов позволяет пользователям выполнять основанный на сценариях анализ сценариев («что, если»), задавая вопросы к данным. Гибкость и способность как строить отношения, так и управлять ими — лучший инструмент, который у нас есть для конкурентного анализа, для управления цепочкой поставок, для целевых продаж и для определения рентабельности инвестиций в разрезе клиентов и продуктов.

Контроль и безопасность данных

Принятие семантических стандартов поддерживает нашу способность последовательно агрегировать данные по направлениям бизнеса. Это ключ к управлению системным риском
и обеспечению соблюдения наших юридических обязательств. Речь идет о возможности взглянуть на взаимосвязи с разных точек зрения, будь то соблюдение нормативных требований отслеживание изменений, защита конфиденциальности, контроль доступа или управление правами интеллектуальной собственности. Обеспечение безопасности:

  • контроль доступа на уровне данных, а не только на уровне систем или процессов;
  • мониторинг потока данных и выявление отклонений от моделей в автоматическом режиме;
  • аналитика данных и расчеты сценариев действий;
  • предотвращение мошенничества и защита конфиденциальных данных от попадания в чужие руки.

Семантические стандарты — это механизм решения проблем с данными, вызванных фрагментацией данных и многообразием (зоопарком) ИТ-систем в компании. Это не только решает проблему с данными, но и поможет вам пройти через цифровую трансформацию, добавляет вам операционные возможности, которые ранее были невозможны, и все это без больших инвестиций и с интеграцией в вашу ИТ инфраструктуру.

Графы знаний