Искусственный интелект
December 22, 2023

Онтологии для предприятия на базе ИИ

Одним из наиболее эффективных способов организации и структурирования контента, который стимулирует новые взаимодействия, является онтология. Статья поможет вам понять, что такое онтология и как она может помочь вашей компании в разработке контента. Онтология — это бизнес-практика, которая помогает вам понимать знания в вашем бизнесе, подключать их и делиться ими новыми и мощными способами.

Сет Эрли
Эксперт с более чем 20-летним опытом работы в области стратегии знаний, информационной архитектуры, поисковых приложений и решений для поиска информации. Он автор отмеченной наградами книги «Предприятие, основанное на искусственном интеллекте», а также востребованный оратор, автор и влиятельный человек. Признан Thinkers 360 одним из 50 лучших мировых лидеров мысли и влиятельных лиц в области искусственного интеллекта 2022 года.

Ларри Свенсон
Автор подкаста Elless Media, специализируется на цифровой архитектуре, которая включает контентную стратегию, контентное моделирование, информационную архитектуру, дизайн контента и написание UX-текстов

Главные идеи из подкаста беседы Сета Эрли с Ларри Свенсоном

  • что такое онтология и как использовать онтологии для описания области знаний;
  • как онтология может помочь распространить знания в организации;
  • разница между понятиями “сущность” и “о чем”;
  • в практике работы с онтологиями начинайте с концепций, важных для бизнеса;
  • как онтология может помочь в реализации контент-стратегии;
  • как эти технологии и практики могут помочь понять намерения пользователей предоставлять правильный контент;
  • важность структурирования контента, чтобы избежать ситуаций TL; DR;
  • как онтологически организованный структурированный контент может помочь в предоставлении персонализированного контента;
  • появление разговорных когнитивных помощников;
  • роль знаний в создании новых инструментов по мере изменения состава рабочей силы;
  • важность понимания – и доведения до руководства – важности работы с онтологиями.

Биография Сета Эрли

Эксперт с более чем 20-летним опытом работы в области стратегии управления знаниями, архитектуры данных и информации, приложений на основе поиска и решений для поиска информации. Сет Эрли работал с различными компаниями из списка Fortune 1000, помогая им достигать более высоких уровней операционной эффективности, делая информацию более доступной для поиска, использования и ценности с помощью интегрированных корпоративных архитектур, поддерживающих аналитику, электронную коммерцию и приложения для работы с клиентами.

Сет — востребованный оратор, писатель и влиятельный человек. Он автор книги “Предприятие на базе искусственного интеллекта” от LifeTree Media. В 2021 году книга получила серебряную медаль Axiom Business Book в категории «Искусственный интеллект / робототехника / алгоритмы».

Его статья появилась в журнале IT Professional от IEEE, где в качестве бывшего редактора он регулярно вел колонку об аналитике данных и проблемах и тенденциях доступа к информации. Он также внес свой вклад в Harvard Business Review, CMSWire, CEOWorld, TechTarget, eCommerce Times, журнал Analytics. Журнал прикладной маркетинговой аналитики, и он является соавтором книги “Практическое управление знаниями” от IBM Press.

На протяжении многих лет в Earley Information Science работает около 50 консультантов, которые работают с информацией, делая ее более доступной для поиска, использования и ценности. Это включает в себя такие вещи, как:

  • работа с большими каталогами продуктов и сайтами электронной коммерции, что влечет за собой работу с управлением знаниями, архитектурой знаний, инженерией знаний.
  • работа с контентом, особенно с много-компонентным контентом и повторным использованием контента.
  • практически весь спектр действий, которые вы бы делали с контентом, данными и информацией, делая их более доступными для людей и применимыми к любой проблеме, которую вы пытаетесь решить.

Что такое онтология?

Онтология может описать любую область знаний о каком-то фрагменте реальности. Если вы занимаетесь науками о жизни или фармацевтикой, то знаете, что она состоит из нескольких таксономий. Как вы создаёте таксономию или контролируемый словарь? Допустим, у вас может быть много разных списков объектов, с которыми вы имеете дело в роли фармацевта:

  • список химических соединений,
  • список общих названий соединений,
  • список названий брендов и коммерческих наименований.

Вполне может оказаться, что некоторые термины указывают на одни и те же вещи, есть предпочтительные термины, альтернативные термины, названия процессов, событий или стадий, химические термины, названия брендов и так далее. Также есть такие вещи, как механизмы действия или функции. Есть цели для лекарств, есть названия болезней, показания и противопоказания, методы лечения. У вас есть все для компании, занимающейся биологическими исследованиями. Сюда также войдут рыночные стратегии и регионы, в которых они работают, а также ключевые лидеры общественного мнения и специалисты-практики. Это всё будет в справочниках базы данных вашей компании.

Все эти словари, списки организаций, все группы, в которые вы бы помещали информацию редко связаны между собой, дублируются и используют разные названия для одного объекта или одно название для разных.

Чтобы разобраться с этим хаосом, вы всегда можете создать несколько таксономий и связать их между собой, когда разрабатываете какую-либо информационную архитектуру или стратегию обработки данных. По сути, это означает несколько таксономий с взаимосвязями между ними, например:

  • заболевания и показания к этим заболеваниям;
  • болезни и методы лечения;
  • лекарственные средства-мишени и механизмы действия;
  • механизм действия, присвоенный лекарственному средству-мишени, который связан с этим универсальным соединением, которое связано с соединением этого бренда.

Если вы хотите собрать информацию по всей организации, скажем, о производительности данного продукта, или о доле рынка, или о ценах, есть способ связать эти разные вещи воедино. Создаётся единая онтология (модель) компании, занимающейся биологическими исследованиями, в которой будет храниться знание обо всём, что касается дел компании.

У вас могут быть продукты и услуги. Есть услуги, которые идут в комплекте с этим продуктом. Есть проблемы клиентов и есть решения компании, — всё, что вы можете придумать, связывается концептуально и может быть включено в вашу онтологию.

В онтологии будут хранится ваши универсальные лекарственные формулы и соединение, названия различных брендов, международных и национальных, все рецептуры. Если вы хотели получить, скажем, среднюю цену на комплекс, вам нужно было знать все эти вещи. Вы должны были знать, как это называется на разных рынках и в разных регионах. Затем вы должны понимать, каков объем продаж. Смысл онтологии в этом контексте заключается в понимании доли рынка, доходов и ценообразования. Потому что вам нужно сопоставить все эти вещи вместе. В любой организации будут эти типы отношений.

Например, вас интересует актёр Кевин Бейкон. Вы идёте в базу данных IMDB и спрашиваете: “В каких фильмах снимался Кевин Бейкон? Какие еще актеры снимались в этих фильмах? Теперь давайте найдем связь между этим актером, другим актером и фильмом, в котором снимается Кевин Бейкон.” Это онтологическая связь, онтологическая структура. Вы можете думать о ней как о всех наборах организационных принципов для описания этой области знаний и взаимосвязей между ними.

Вот тут-то и возникает вопрос: что это такое? Как мы это определяем? Это инфраструктура знаний. Это каркас знаний организации. Это все ячейки, в которые мы можем поместить нашу информацию и наш контент. Можно сказать, что это план счетов для знаний.

Таксономия — это план счетов для знаний

Однажды, много лет назад, мы выполнили проект, описанный в книге, для прикладных материалов. Старший финансовый директор сказал: “Ну, зачем нам нужны онтологии и таксономии? Почему бы нам просто не воспользоваться Google?

Я спросил: “Хорошо, у вас есть план счетов для вашей финансовой организации?” Он сказал: “Конечно есть”. Я сказал: “Ну, почему бы вам не избавиться от своего плана счетов и просто не воспользоваться Google?”

Потому что таксономия — это план счетов для знаний. В случае с прикладными задачами это могут быть планы производства, типы оборудования, технологии изготовления и регионы, есть более 30 различных наборов организационных принципов, которые описывают знания этого предприятия.

Как только у вас появятся описание отношений между объектами в базе знаний, будет намного проще зайти и сказать: используйте номер детали, чтобы найти все разговоры о проблемах с этой деталью или о техническом обслуживании. Ввести изображение и узнать, что это было за изображение, какой тип детали, какой тип сборки, как оно использовалось? Какой уровень запасов на складе был основан на интеграции ERP?

Онтология предоставляет вам этот механизм для перемещения знаний, информации и данных организации. Думайте об онтологии как о структуре, каркасе ваших знаний. Когда у нас есть данные и мы можем получить к ним доступ, это фактически граф знаний.

Графические данные состоят из онтологии и механизма доступа к данным. Это позволяет вам

  • быстрее создавать отчеты, находить связи, которые были недоступны для выполнения информационных запросов, которые вы не ожидали там найти.
  • использовать множество различных источников данных, которые могут иметь разные описания, потому что вы сопоставляете их вместе
  • дает вам огромную гибкость, подвижность, расширяемость, когда вы создаете эти вещи правильно.

Правильный подход означает рассмотрение различных аспектов вашей информации.

Онтологии ищут ответы на вопросы о сути вещей

Допустим, мы смотрим на книгу. Это книга о предприятии на основе ИИ. Речь идет об управлении информацией. Речь идет об искусственном интеллекте. Речь идет об онтологиях. Если у нас есть контракт (а у нас есть тысяча контрактов, которые мы должны различать), как мы их различаем? Мы подробно описываем их по типу контракта, по имени клиента, по региону, по всевозможным дескрипторам (описаниям). Эти дескрипторы становятся информацией.

Суть заключается в описании сущностей и объектов. Затем в рамках этих сущностей и объектов нам нужно определить все эти принципы организации. Сейчас люди сказали бы: “Ну, разве это не похоже на основные данные или это просто архитектура контента? Почему бы нам просто не начать с этого?”.

Мой ответ на это таков: это не совсем то же самое, потому что, если вы начинаете с уровня основных данных, вы погружаетесь прямо в данные. Вы говорите: “Хорошо, это организующий принцип. Это поле данных или значение внутри поля ”. Нам нужно подняться над данными, чтобы увидеть суть. Нам нужны метаданные, или описания самих данных.

Причина, по которой мы не хотим начинать с метаданных, или просто таксономии, заключается в том, что вы хотите начать с концептуального уровня. А именно ответить на вопрос — что важно для этого бизнеса? Где это проявляется? Где проявляется эта концепция? Концепция может проявляться множеством различных способов.

Многие люди раньше думали, что таксономия — это то же самое, что навигация, верно? Они сказали бы: “О, мы должны построить таксономию. Мы думаем об иерархии”. Это была навигационная иерархия, но это гораздо больше.

Хороший пример: вы — консалтинговая фирма, и у вас есть методологии. У многих компаний есть методология, производственные методологии, консалтинговые методологии, методологии решения проблем, методы устранения неполадок, что угодно. Проблема в том, что методология — это концепция.

В корпоративной базе данных вы могли бы создать целое семейство папок под названием Методологии. Внутри неё вы могли бы иметь артефакты под названием methodology. У вас мог бы быть тип контента под названием methodology. У вас могло бы быть поле метаданных под названием me methodology, или вы могли бы иметь термин в поле метаданных в качестве контролируемого словарного элемента под названием “методология”.

Методологию как концепцию необходимо перевести во множество различных структур, которые являются не просто навигацией и не просто классификацией. Это могут быть рабочие процессы. Это могут быть другие принципы организации. Они могут быть более крупными конструкциями, это могут быть процессы.

Суть здесь в том, что, начиная с этого уровня данных, фактически теряется большая часть содержимого. Что мы хотим сделать, так это начать с концепций, а затем решить, как эти важные концепции согласовать. Затем начните думать о том, как они могут быть спроектированы в нескольких нижестоящих системах вашей инфраструктуры.

Как работает онтология

Поговорим немного подробнее о механизме того, как онтология объединяет все это воедино таким образом, чтобы помочь вам лучше создавать контент и управлять им.

Всё это может показаться немного запутано, и поэтому нужно больше примеров. В конце концов, вы хотите обдумать фрагмент знаний или информации не только в контексте общей структуры документа. Вы также хотите подумать об идентификаторах и дескрипторах этого контента, чтобы вы могли перенести его в другой контекст, чтобы можно было сразу получить ответ на конкретный вопрос, а не ссылку на 100-страничный документ. Люди не хотят при поиске по заявкам получить сотню результатов. При извлечении ответа вам не нужен был этот 100-страничный документ. Вы хотели понять, как сделать что-то конкретное сразу, без изучения дополнительной информации. Это как правило небольшой фрагмент контента, небольшой абзац. Нам нужно подумать о детализации контекста этого абзаца и уметь структурировать метаданные вокруг этого.

Метаданные — это мощный инструмент для организации информации. Их можно адаптировать под тему предметной области, развивать. Вы можете создавать пользовательские метаданные для аудитории, для задачи, для устранения неполадок в коде, для продукта или чего угодно еще.

То, что вы пытаетесь сделать: давайте дадим этой части этого компонента достаточное количество идентификаторов, чтобы мы понимали его контекст и задачу, которую он поддерживает, и проблему, которую он поддерживает, или решение, которое он поддерживает, и были в состоянии извлечь это, идентифицируя высказывание и намерение из этого высказывания.

Подумайте об этом, когда вы работаете с виртуальными помощниками и чат-ботами, вы пытаетесь просто использовать варианты фраз, которыми люди описывали бы свою проблему. Вы пытаетесь отнести это к намерению, верно? Высказывания типа: “Боже, я не могу, мой пароль не работает, или мой ID заблокирован, или я забыл свой пароль, или мой компьютер злится на меня”. Подумайте обо всех различных способах, которыми вы можете сформулировать: «Я не могу войти в свой компьютер, понимаете?” Это было безумие. Все эти различия, все эти разные высказывания сводились к намерению изменить мой пароль. Это намного сложнее, потому что намерения многомерны, не так ли?

Если вы просто попытаетесь отнести высказывание к одной вещи, то в итоге получите что-то вроде заранее согласованной таксономии.

Вы спрашиваете: “Ну, и что эта вещь означает?” “Ну, это означает вот что”.

Если это означает больше, чем одно, допустим 4 разных объекта: тип бизнеса, тип заявки, тип покрытия страхового покрытия, состояние. Все это становится аспектами, с помощью которых вы можете извлекать этот очень специфический фрагмент контента. Именно так нужно думать об авторстве компонентов, не только о контексте этого документа для перевода и локализации, но и о контексте этого документа для автономного поиска в контексте конкретной проблемы, которую можно описать в нескольких измерениях таким образом, чтобы вы сосредоточились на этом конкретном фрагменте контента из этого океана информации. Все эти объекты контента. В старые времена это были монолитные документы. Вам пришлось бы пометить несколько измерений.

TL: DR слишком длинный чтобы читать

Что ж, это не работает. Мне не нужен документ на 50 страниц. Мне не нужно руководство на сто страниц. Говорят, что TL не DR. Слишком много, я не читал? Вы говорите WTF, вы прочитали долбаное руководство, а люди отвечают: TL: DR — слишком длинный, я не читал. RTFM TLDR. Вы должны помнить об этих двух вещах и спрашивать себя: “Какую именно информацию мне нужно донести до этого пользователя в этом контексте или с этой целью?” Это то, что хорошо в контенте, управляемом искусственным интеллектом.

Организации начинают говорить: “О, у нас есть группа контента для искусственного интеллекта”. Нет, это должна быть просто группа контента. Это не контент для ИИ. Что ценно в этом, так это тот факт, что они очень конкретно думают о пользователе, варианте использования, задаче и контексте и создают только один фрагмент контента для ответа на этот вопрос.

Я пытался активировать кредитную карту, оторвал наклейку и выбросил ее, прежде чем сделать это. Я подумал, что найду ее где-нибудь в другом месте. Я смотрю и смотрю, получаю страницы, страницы и страницы контента об активации кредитной карты и прочей ерунде по этому поводу. Все о кредитной карте то-то и то-то, и как мы защищены, и как мне активировать эту чертову штуку? Где номер для этого? Я не смог найти его на 10 страницах контента. Я забыл, где я это нашел, но это было ужасно сложно. Я искал активацию. Я искал, но забыл, что искал. Я провел всевозможные поисковые запросы, но не смог получить этот номер для активации своей кредитной карты. Итак, какова цель всего остального контента, связанного с активацией кредитной карты, если в нем не указано, как это сделать? В этом ценность контента, управляемого искусственным интеллектом. Поскольку мы пытаемся использовать бота, мы пытаемся использовать этого бота для очень специфической аудитории, для определенного набора вариантов использования. Вот где нам нужно гораздо более точно продумать контент.

Теперь всё, что нам нужно — это согласование: пользователя, варианта использования, задачи и контента. Это касается упаковки контента не только для сайтов, но и для чат-ботов, а также для любого вида персонализации, предоставления персонализированного контента.

Это ничем не отличается. Когда вы думаете о персонализации и о чат-боте, это один и тот же механизм:

  • Вы принимаете сигнал.
  • Сигнал в случае чат-бота — это высказывание.
  • Вы интерпретируете его и реагируете.
  • Вы предсказываете ответ. Вы делаете прогноз, вы персонализируете, верно?
  • Вы говорите, что это сигнал и реакция.

Чем богаче сигнал, тем больше деталей о пользователях у меня есть, понимая их варианты использования, их личность, их задачу, их цель, тем лучше я могу предсказать контент, который им нужен. И не имеет значения, где именно — будь то на веб-странице или в приложении, потому что я получаю сигналы, я улавливаю цифровой язык тела, я знаю, кто они. Если они аутентифицированы, то что-то о том, что у них есть, вот почему так важны данные от первого лица.

  • Я собираю эти атрибуты, эти идентификаторы, эти данные и этот цифровой ресурс из всех других систем, с которыми они взаимодействуют.
  • Я объединяюсь с платформой данных о клиентах и использую ее для информирования о контенте, продуктах, следующем лучшем предложении и следующем лучшем действии для данного пользователя в данном контексте.
  • Это может быть то же самое, что ответить на вопрос, верно?
  • Если они выполняют поиск, если они перемещаются, если они загружают технический документ, если они смотрят на определенный продукт, все это сигналы.
  • Затем я хочу реагировать на эти сигналы.
  • Эти сигналы являются метаданными, верно?
  • Мы реагируем, считывая эти метаданные и согласовывая их с контентом, с метаданными нашего контента, верно?
  • Это вопрос обработки этих сигналов и согласования их с контентом.

Есть кейс, который мы выполнили для крупной глобальной технологической фирмы. Они обрабатывают более 10 миллионов транзакций с информацией в день. Другими словами, они отвечают на вопросы. Они публикуют контент один раз, многократно используя его повсюду. Они очень продвинуты в разработке компонентов. Они занимаются этим около 10 лет, основываясь на работе, которую мы начали с ними почти десять лет назад. Они сказали, что внедрили это и делают это без армии создателей контента и контент-менеджеров, менеджеров веб-сайтов. Благодаря этому они экономят сотни миллионов долларов в год на операциях с контентом.

Персональные когнитивные помощники уже скоро

Это также идеально настраивает их на создание когнитивных помощников высокой функциональности. Эти когнитивные помощники станут тем способом, с помощью которого организации будут вести свой бизнес. Другого пути нет, потому что мы постоянно снижаем затраты и пытаемся улучшить качество обслуживания клиентов. Мы не можем позволить себе масштабировать человеческий опыт. Мы должны фиксировать, кодифицировать, автоматизировать, верно? Именно это и произойдет.

Мы будем проводить свой день, взаимодействуя с виртуальными помощниками, именно таким будет наш мир очень скоро. Они будут удобными для общения и будут работать действительно хорошо. Хотя прямо сейчас они отстой. Но мы знаем, что в ближайшие несколько лет мир станет миром разговорных помощников, интеллектуальных виртуальных помощников, которые во многом аналогичны общению с людьми. Они не будут такими же. Они не будут думать, но они будут моделировать, копировать, синтезировать наш опыт.

В цикле должен быть человек, но разница между тем, где мы находимся сегодня, и тем, каким будет будущее всего через несколько лет, приведет к устареванию некоторых организаций, точно так же, как бум доткомов Интернета привёл к исчезновению многих бизнесов и появлению новых. Вы видите то же самое с когнитивными помощниками. Потому что вы не сможете позволить себе всех этих людей, причем хорошо обученных, а большая часть специалистов выбывает из рабочей силы. У нас будет поток потребностей, цунами потребностей в области архитектуры знаний, кодификации знаний, компонентизации сбора знаний, чтобы мы могли использовать эти инструменты. Вот почему разработка компонентов и контента так важна при размышлении об этом в этой онтологической структуре, в этой онтологической конструкции.

В будущем у нас будет такая возможность, и компании, у которых ее нет, а также те, которые начинают работу не сегодня, не справляются с этим, или знания выходят из-под контроля. Они даже не думали об этом, это не попадало в поле их зрения, они будут обескуражены. Они будут по-прежнему востребованы из-за размера, охвата рынка и каналов распространения бренда, но они будут сокращаться. Их затраты будут расти. Их доход будет снижаться, и в конце концов они уйдут. Придут более дешевые, более гибкие, прирожденные цифровые производители, которые понимают эти принципы, и применяют их, и внедряют, и вводят в действие, и исполняют точно так же, как крупная глобальная организация.

Это путешествие

Я думаю, если вы еще не в этом путешествии, вам нужно начать. Если ваши клиенты или организации, в которых вы работаете, не разбираются в этом, пригласите консультанта провести инструктаж для руководителей. Действительно важно донести это сообщение до высшего руководства. Действительно важно донести это сообщение до руководства, потому что оно будет иметь экзистенциальное значение. Как эксперты и профессионалы в этой отрасли, вы обязаны привлечь внимание вашего руководства к этому вопросу. Не будьте робкими. Скажите: “Послушай, это важно”. Если они этого не понимают, найдите то, что им нужно увидеть, выучить, прочитать и услышать, чтобы они это поняли.
Потому что у людей, участвующих в этом вызове, будет работа, верно? У руководителей, которые не воспримут это всерьез, работы не будет. Я это видел. Я видел это неоднократно, как это происходило там, где организации этого не делали. У меня есть история об издателе, который потерял весь рынок учебников K-12, потому что другой конкурент использовал компонентный контент, угадайте что? Это было примерно 10 лет назад. Они не смогли добраться вовремя и потеряли этот рынок. Это будет происходить снова, и снова, и снова, в отраслях, которые мы видим сегодня. Поскольку эти инструменты ускоряют работу с контентом, управление им становится более важным, чем когда-либо. А также таксономия и информационная архитектура, несмотря на то, что люди говорят: “Вам это не нужно, искусственный интеллект позаботится об этом”. Это самое далекое от истины. Прочитайте мою статью Нет искусственного интеллекта без ИИ. Купите мою книгу и прочтите её тоже.

Источник

Курирование и адаптация: Онтограф

ИИ Онтологии