Как использовать возможности графа знаний и семантических технологий в компании
«Наша компания работает в определенной индустрии, создавая конкретную ценность для определенного круга потребителей». Если вы так сказали, то онтологически выделили в реальности бесконечного мира свой локальный контекст, где вы ведете свою деятельность.
Во время своей работы вы взаимодействуете с этой реальностью и генерируете данные — задача которых представить объекты и процессы реального мира в корпоративной цифровой модели, поведение которой должно уметь предсказывать поведение реального мира. Граф знаний — это инструмент, который помогает вам: он хранит и представляет бизнес-модели, клиентов, продукты, персонал, процессы и контролирует обязательства.
Проблема данных
Сегодня многие компании сталкиваются с проблемой данных, которые возникают из-за большого объема и технологической фрагментации.
Несоответствие данных
Значения данных об одном и том же объекте (например о клиенте и его операциях) в разных системах, базах данных и операционных границах не соответствуют друг другу. Это происходит потому, что разные отделы компании используют разное ПО (в бухгалтерии 1С, в продажах SRM Bitrix24), где данные преобразовывают и переименовывают в соответствии с требованиями этих приложений.
Никто специально это «несоответствие данных» не создает, оно появляется очень естественно и «самостоятельно», потому что мы стремимся управлять контекстом между различными интересами, моделями и рабочим софтом фронт-офиса (связанными с транзакциями и маркетингом) и бэк-офиса (учет финансовых, юридических, процедурных и аналитических требований).
Ограничения реляционных СУБД
Эти проприетарные технологии (зависят от воли одного поставщика), что еще 2 поколения назад были передовыми, стали настоящим препятствием для работы в быстро меняющемся мире. В реляционных базах данных данные организованы в столбцы и хранятся в таблицах, связанных друг с другом с помощью внутренних ключей.
Проблема в том, что со временем в любой компании в тысячах таблиц появляются конфликтующие имена столбцов со структурированными связями, которые были созданы давно и уже устарели.
В результате мы тратим значительные усилия на перемещение данных из одного места в другое и бесчисленное количество человеко-часов на согласование данных и их значения.
Мы позволили данным стать изолированными, несовместимыми и негибкими из-за
технологической фрагментации и жесткой технологической среды. Это отвлекает ресурсы компании от бизнес-целей, увеличивает время окупаемости инвестиций в технологии и ограничивает аналитическую гибкость. Это приводит к разочарованию и способствует
росту недоверия подразделений внутри организации.
Чтобы решить эти проблемы, нужно исправить свою модель работы с данными, и это не требует больших инвестиций в новые технологии или отказа от использования текущей IT-инфраструктуры.
Существует проверенный и доступный путь: принять стандарты работы с данными и использовать преимуществами семантических стандартов для обеспечения согласованности, точности и учета контекстов значений данных по мере того, как они проходят через ваши бизнес-процессы. Только так можно превратить данные из «проблемы, которой нужно управлять», в данные как «актив для роста капитализации знаний».
Далее вы поймете, что эта концепция «информационной грамотности» проста для понимания и достойна встраиванию в модель цифровой трансформации компании.
4 главных элемента графа знаний и семантических стандартов
Подход к поиску, интерпретации и связыванию данных теперь технологически доступен многим компаниями и организациями, которые уже используют его для гармонизации всех своих данных, устранения рисков и извлечения выгоды из новых возможностей.
Уникальный идентификатор ресурса (URL)
Управление знаниями начинается с идентификации. В графе знаний все объекты идентифицируются по крайней мере одним универсальным, уникальным, постоянным и разрешаемым в Интернете идентификатором в форме интернационализированного идентификатора ресурса (URL), он просто представляет элемент данных и указывает на место его размещения в сети.
Вместо того, чтобы загружать копии базы данных, управлять таблицами перекрестных ссылок,
обновлять API и управлять всем набором тестов, вы просто указываете URL. Это устраняет
задачу перемещения и сопоставления данных, потому что весь контент в вашей организации связан с собственным уникальным (никогда не меняющимся) идентификатором.
Значение данных (смысл, онтология)
Одной из причин «проблемы данных» является то, что данные многократно модифицировались, преобразовывались и переименовывались в течение своего жизненного цикла.
Обеспечение единого представления данных является сложной задачей, поскольку они могут находиться в различных СУБД, иметь различные структуры данных, определения и контекстуальные значения. Поэтому проекты интеграции информационных систем и данных как правило сложные и дорогие, особенно при наличии десятков систем учета, обслуживающих различные операционные процессы и независимые направления бизнеса.
Процесс согласования глоссариев, отражающих терминологию различных специализированных приложений, сложен и лучше всего выполняется с использованием процессов моделирования и стандартов контента, которые описывают значения данных и типы связей понятий предметной области.
Как раз для этого используют онтологии как метод моделирования и обмена данными, который используется для обеспечения общего понимания требований между заинтересованными сторонами бизнеса и разработчиками приложений.
Метод онтологий позволяет вам зафиксировать основные концепции и отношения, определенные экспертами в вашей индустрии или предметной области. С этого момента открывается путь к формализации знаний компании, а улучшенный и быстрый поиск, интерпретация и связывание данных теперь может использоваться для гармонизации данных, устранения рисков и использования возможностей.
Стандарт Semantic Web использует концептуальные модели данных для точного
описания того, что означают данные, а также того, как понятия связаны между собой.
Значение каждой точки данных напрямую преобразуется в машиночитаемое
определение. Онтологии связаны с таксономиями (глоссариями терминов), которые можно напрямую преобразовать в физические структуры данных.
Свойства в каждой точке данных связаны с их определением, поэтому значение никогда не вызывает сомнений.
Выражение данных на детальном уровне обеспечивает максимальную гибкость для их
«нарезки» (разделения на элементы), объединения и агрегирования.
Бизнес-правила (SBVR, SHACL)
SHACL (Shapes Constraint Language) — язык ограничений фигур, используется для проверки графов RDF на соответствие набору условий. Эти условия предоставляются в виде форм и других конструкций, выраженных в виде RDF-графа.
SBVR (Semantics of Business Vocabulary and Business Rules) — основа для формального и подробного декларативного описания сложного объекта (например такого, как бизнес) на естественном языке. Эти правила необходимы для того, чтобы данные соответствовали назначению в контексте вашего бизнеса.
Факт – это предположение, которое бизнес считает истинным. Люди сообщают друг другу факты, то есть факт является единицей общения. Ориентированный на факты подход позволяет проводить многомерную категоризацию, а так же:
- поддерживает изменчивость времени;
- обеспечивает семантическую устойчивость;
- обеспечивает расширяемость и повторное использование;
- предполагает разбиение составных типов фактов на элементарные (атомарные).
Сфера бизнеса ( пространство дискурса) включает в себя те аспекты бизнеса, которые представляют интерес вовлеченных сторон, а формализация описывает предметную область бизнеса и состоит из:
Схема объявляет соответствующие типы фактов (виды основных фактов, например, сотрудник работает в отделе ) и соответствующие бизнес-правила (обычно ограничения или правила вывода).
Эти «условные выражения» устанавливаются в соответствии с критериями, установленными экспертами в предметной области, и преобразуются в множество типов правил, от простых до сложных:
- правила проверки,
- правила расчета,
- правила классификации,
- правила преобразования,
- правила рабочего процесса,
- правила определений
Правила могут быть выражены на естественном языке и сохранены в графе знаний. Они связаны с качеством данных и процессов, а также с онтологиями, чтобы гарантировать, что значение разделяется всеми заинтересованными сторонами, а не затемняется расплывчатыми терминами или загадочными кодами. Логика фиксируется и выражается в виде исполняемых моделей и последовательно применяется во всех системах и процессах.
Хранилище триплетов (RDF, OWL)
Большим вкладом консорциума W3C стал переход от данных, которые «основаны на местоположении» в виде связанной пары, хранящейся в таблицах, к данным, которые «основаны на значении» на языке хранилища триплетов в сети Интернет.
Ценность триплетов (троек) в их простоте, универсальности и привычной нам языковой модели. Это просто структура простого предложения: подлежащее — сказуемое — определение. Это минимальный элемент смысла, «кубик лего» нашего общения. Все ваши данные в корпоративном графе знаний будут организованы в группы по три элемента, каждая группа содержат субъекты и объекты, связанные друг с другом предикатом (глаголом).
Все эти понятия точно определены на основе знаний экспертов в предметной области в форме онтологии. И как только вы определите эти понятия на самом атомарном уровне, вы сможете связать их вместе. Эти онтологии связывают значение данных с таксономиями или глоссариями, которые могут быть непосредственно переведены в физические структуры данных, чтобы
управлять всеми корпоративными приложениями. Так создается настоящая незримая связность ваших данных, смыслов и всей компании.
8 основных возможностей графов знаний
Используя 4 строительных блока, описанных выше, граф знаний предоставляет 8 основных возможностей, которые вместе создают ценность для бизнеса:
- 1. Логико-математический аппарат автоматической проверки на истинность;
- 2. Многократное повторное использование онтологий, концепций, моделей, данных;
- 3. Поддержка корпоративного и отраслевого контекста;
- 4. Управление доступом;
- 5. Мониторинг данных на всем жизненном цикле;
- 6. Упрощение управления и администрирования;
- 7. Машиночитаемый код, понятный человеку;
- 8. Моделирование сценариев и непрерывное тестирование
Логико-математический аппарат автоматической проверки на истинность
В графе знаний данные приведены в соответствие с точным значением и встроены в структуру самого контента, чтобы пользователи всегда знали, что представляют собой данные, даже когда они перемещаются за пределы организации.
Это означает, что ошибки и конфликты определений на истинность проверяются в первоисточнике прежде, чем они будут введены в другие приложения. Качество основано на правилах и не привязаны как к схемам, так и к моделям данных, и могут быть адаптированы для конкретных приложений.
Правила связаны со структурированными словарями (таксономиями) и привязаны к уникальному URL, чтобы гарантировать, что любое значение может быть обнаружено и доступно для совместного использования.
Целью является автоматизированный контроль качества. Это происходит на элементарном уровне, чтобы пользователи были уверены, что получают точную информацию с учетом контекста специфических вопросов вашей индустрии. А с точки зрения соответствия, история данных на графе неизменяемая, поэтому можно проследить весь жизненный цикл элемента данных и ничего нельзя удалить, кроме как с помощью орг.политики.
Повторное использование концепций ускоряет моделирование
Одной из проблем, связанных с традиционным проектированием базы данных, является проблема «жестко закодированных предположений» (т.е. выполнение одних и тех же действий немного другим способом на основе какой-либо цели проектирования).
Инженеры и архитекторы часто делают явные предположения о своей предметной области и
кодируют их непосредственно в своих приложениях. Жесткое кодирование этих вариантов дизайна на языке программирования затрудняет их поиск и изменение, особенно при отсутствии
документации или опыта программирования. И потом любое изменение бизнес-модели или процесса приводит к конфликту, потому что его невозможно внести в структуру данных без серьезной перестройки всей структуры данных.
Использование семантических технологий и онтологий для моделирования устраняет проблему жесткого кодирования, поскольку оно фокусируется на концепциях, а не на конкретных приложениях.
Пользователи всегда понимают, что представляют собой данные в самой детализированной
форме. Это позволяет повторно использовать важные концепции в системах и
процессах.
Рассмотрим пример использования такой концепции, как время. В разных предметных областях требуются разные способы моделирования времени, включая понятия временных интервалов, моментов времени и относительных мер времени.
В подробной онтологии фиксируются все стандарты и концепции времени, так что подходящее измерение может быть выбрано по мере необходимости, а не заново изобретаться инженером для конкретного приложения.
Поддержка корпоративного и отраслевого контекста
Семантические стандарты позволяют информационным архитекторам отделить бизнес-логику от кода. Бизнес-логику можно выразить, просто взглянув на то, что представляет собой
элемент данных. С семантическими стандартами мы можем понимать все данные в контексте,
исследуя связи 4х измерений: идентичности, значения, времени и источника данных.
Управление доступом
Технология, которая предоставляет и обеспечивает права доступа к данным, должна управляться на уровне данных, платформы, приложений и ролей.
Правила предоставления прав и контроля доступа должны быть связаны с процессами происхождения и преобразования данных, постоянно отслеживаться и проверяться. Это обязательно для управления безопасностью и обеспечения конфиденциальности и должно
синхронизироваться по мере того, как сотрудники перемещаются между отделами и выполняют различные роли.
Проблема в том, что многие системы замыкаются на своих правилах разграничения доступа, каждая со своим собственным выражением полномочий, что ограничивает возможность маневра внутри компании между разными системами и политикой разграничения доступа и безопасности данных.
Эта проблема ложиться огромным, сложным и беспорядочным административным бременем на ИТ-службу компании при попытке настроить глобальные права доступа во всех технологических средах компании.
Граф знаний способен решить эту дилемму, моделируя бизнес-правила в контексте компании для всех ролей и обстоятельств. Граф автоматически поддерживает эти модели, назначая управление доступом на уровне данных и приложений. Безопасность встроена в структуру данных и не ограничивается ни системами, ни административными сложностями.
Отслеживание происхождения данных на всем жизненном цикле
В графе знаний все данные связаны с одним идентификатором. Это означает, что компании могут отслеживать данные по мере их прохождения через ИТ-системы. Специалисты по данным и бизнес-пользователи знают, что представляют собой данные, а также как они используются в процессе производства данных.
Данные можно многократно преобразовывать и переименовывать по мере их передачи между системами, не теряя сведений о том, откуда они пришли, что представляют собой и куда направляются. Цели по происхождению данных назначаются автоматически, полностью и постоянно проверяются. Граф знаний становится хабом, поскольку он отслеживает поток данных и полностью поддается аудиту по источнику, цели и ответственной стороне.
Упрощение управления
Граф знаний использует возможности разрешимой идентификации, точного значения, структурной проверки и отслеживания происхождения, чтобы сместить фокус управления с согласования данных на автоматизированные приложения для обработки данных.
С помощью семантических стандартов компания может создавать связанный перечень данных:
- что существует,
- как это классифицируются,
- где находится,
- кто несет ответственность,
- как они используются и
- как они перемещаются по системам.
Данные прослеживаются для всех приложений, что позволяет пользователям выполнять
гибкие запросы и контекстный поиск.
Качество данных обеспечивается структурно, на уровне согласованности между репозиториями. Проблемы идентифицируются онтологией и могут быть решены, когда и где они возникают. Граф знаний изменяет операционную модель управления, упрощая операции, автоматизируя
управление проблемами и облегчая совместную среду для интеграционного тестирования.
Машиночитаемый код, понятный человеку
Семантические стандарты написаны на языке, понятном как людям, так и машинам. Значение данных стандартизировано на детальном уровне. Данные связаны с машинно-исполняемыми правилами с контрольными журналами. Политики могут быть смоделированы как машинно-исполняемые правила.
Семантические стандарты основаны на правилах и не связаны с данными. Использование машино-читаемых стандартов облегчает автоматическую проверку и обеспечивает гарантию качества данных.
Моделирование сценариев и непрерывное тестирование
На графе знаний требования, варианты использования и индивидуальные цели пользователей связаны с автоматизированными процедурами тестирования и управлением проблемами.
Все конвейеры данных имеют полное и структурированное тестовое покрытие для каждого изменения. Без автоматизации стоимость внедрения новых компонентов и новых функций очень высока.
С семантическими стандартами каждое изменение в онтологии связано с процессом тестирования непротиворечивости на уровне логики. Когда запускается автоматизированный процесс управления изменениями и в авторитетные источники вносятся изменения, система отслеживает и проверяет все последствия и их влияния на модель.
Манифест о капитализации знаний
Эти 4 открытых стандарта приводят к 8 основополагающим возможностям, которые можно
описать как «Манифест о капитализации знаний». Знания вашей компании выростают из специально обработанных данных, которые превращаются в актив, повышающий капитализацию компании. С семантическими технологиями вы вправе ожидать, что ваши данные:
- будут соответствовать первоначальным намерениям их генерирования;
- будут определены и описаны на атомарном уровне;
- будут иметь возможность многократного повторного использования;
- будут доступны всегда, когда это необходимо, как часть ваших важнейших активов;
- будут находиться в гибком для использования формате, а не в жестких схемах;
- можно будет отслеживать по мере их прохождения между процессами и тестировать по
назначению.
С семантическими стандартами все эти права достижимы без огромных инвестиций в
технологии или серьезных изменений в том, как работает ваша организация.
Эти ценные возможности всегда найдут отклик у заинтересованных лиц вашей компании:
- Владельцев и СЕО, которые думают о росте и скорости,
- Руководителей по технологиям, которые думают об отказоустойчивости и масштабируемости
- Руководителей продукта, которые думают о вариантах использования и времени выхода на рынок,
- Руководителей по качеству, которые думают о прозрачности и контролю
Снижаем затраты
Мы начинаем с фактической определенности. Это необходимое условие для интеграции
данных — мы упрощаем, стандартизируя значение, разрешая идентичность и отслеживая поток данных. С фактической уверенностью мы точно знаем, что представляют данные в контексте бизнеса компании. Это позволяет нам создавать связанные реестры активов, чтобы лучше распределять их.
Ресурсы. Это позволяет нам автоматизировать процессы за счет сокращения согласования и уменьшения сбоев процесса. Это позволяет нам консолидировать и масштабировать системы и поддерживать усилия по упрощению управления данными. По скромным подсчетам, такая экономия затрат может составить не менее 30% от общего объема операций.
Используем новые возможности
Речь идет о понимании отношений для лучшего профилирования клиентов и предиктивного маркетинга, о гибких исследованиях, предоставляющих бизнес-аналитикам инструменты, необходимые им для улучшения всех продуктовых метрик.
Принятие семантических стандартов позволяет пользователям выполнять основанный на сценариях анализ сценариев («что, если»), задавая вопросы к данным. Гибкость и способность как строить отношения, так и управлять ими — лучший инструмент, который у нас есть для конкурентного анализа, для управления цепочкой поставок, для целевых продаж и для определения рентабельности инвестиций в разрезе клиентов и продуктов.
Контроль и безопасность данных
Принятие семантических стандартов поддерживает нашу способность последовательно агрегировать данные по направлениям бизнеса. Это ключ к управлению системным риском
и обеспечению соблюдения наших юридических обязательств. Речь идет о возможности взглянуть на взаимосвязи с разных точек зрения, будь то соблюдение нормативных требований отслеживание изменений, защита конфиденциальности, контроль доступа или управление правами интеллектуальной собственности. Обеспечение безопасности:
- контроль доступа на уровне данных, а не только на уровне систем или процессов;
- мониторинг потока данных и выявление отклонений от моделей в автоматическом режиме;
- аналитика данных и расчеты сценариев действий;
- предотвращение мошенничества и защита конфиденциальных данных от попадания в чужие руки.
Семантические стандарты — это механизм решения проблем с данными, вызванных фрагментацией данных и многообразием (зоопарком) ИТ-систем в компании. Это не только решает проблему с данными, но и поможет вам пройти через цифровую трансформацию, добавляет вам операционные возможности, которые ранее были невозможны, и все это без больших инвестиций и с интеграцией в вашу ИТ— инфраструктуру.