Big Data
October 3, 2023

Типы данных, типы анализа и источники 

1. Типы данных в Big Data

Данные в концепции Big Data принято делить на три большие категории в зависимости от их структурированности:

  • Структурированные данные

Классическим примером структурированных данных являются таблицы в базах данных. Каждый элемент данных однозначно идентифицируется, имеет строго заданный тип и формат, связан с другими элементами определенными типами связей. Так, в реляционных базах данных используются связи "один к одному", "один ко многим" и другие. Они определяют, как записи в разных таблицах связаны между собой. Кроме того, используются первичные и внешние ключи, ограничения целостности данных, индексы для ускорения поиска и другие механизмы, обеспечивающие структурированность данных.

Структурированные данные хорошо подходят для хранения и оперативной обработки больших объемов однотипной информации. Примерами могут служить данные о покупках в интернет-магазине, записи телефонных разговоров в колл-центре, показания датчиков в системе умный дом.

  • Полуструктурированные данные

Этот тип данных содержит как структурированные, так и неструктурированные элементы. Примером могут служить XML-файлы, логи веб-сервера, данные датчиков и многое другое.

Хотя полуструктурированные данные и не имеют фиксированной схемы, их можно обрабатывать программными средствами. Они часто возникают в процессе работы различных информационных систем.

  • Неструктурированные данные

Это данные, которые не имеют предопределенной структуры или схемы, например тексты на естественном языке, фото, аудио, видео. К этой категории относятся сообщения в социальных сетях, комментарии на форумах, новостные статьи и т.д.

Такие данные сложно обрабатывать автоматически, но они содержат ценную смысловую информацию после анализа человеком.

2. Источники Big Data

Давайте теперь разберемся, откуда берутся эти массивы разнотипных данных, которые формируют понятие Big Data.

  • Веб-данные. Огромное количество информации генерируется пользователями интернета. Это тексты, изображения, видео на сайтах; данные о посещениях и поведении пользователей на сайтах; запросы в поисковых системах и многое другое.

Например, каждую минуту на YouTube загружается более 500 часов новых видео, а в Google производится более 3,5 миллиардов поисковых запросов в день. Обработка и анализ таких данных позволяет выявлять интересы аудитории, оценивать эффективность рекламы, оптимизировать работу сайтов и многое другое.

  • Данные из социальных сетей. Популярные платформы вроде Facebook, Instagram, Twitter, ВКонтакте ежедневно генерируют миллиарды постов, лайков, комментариев и других взаимодействий. Это бесценный источник информации о пользователях.

Например, проанализировав данные из соцсетей, можно выявить мнения людей о бренде, изучить распространение вирусного контента, спрогнозировать популярность нового продукта по упоминаниям и многое другое.

  • Данные датчиков и устройств Интернета вещей. Датчики температуры, влажности, давления, медицинские приборы, счетчики расхода ресурсов и множество других устройств генерируют Continuous Data - непрерывные данные о состоянии объектов и процессов в режиме реального времени. Анализ таких данных критически важен для предиктивной аналитики и предупреждения аварийных ситуаций.
  • Бизнес-данные. В процессе деятельности компании накапливается огромное количество данных в корпоративных информационных системах - ERP, CRM, SCM, бухгалтерских программах и т.д. Эти данные могут использоваться для оптимизации бизнес-процессов, сегментации клиентов, анализа продаж, логистики и прочего.
  • Мобильные данные. Современные смартфоны содержат множество датчиков и постоянно обмениваются данными через мобильные приложения. Обработка этих потоков данных позволяет анализировать передвижения людей, их предпочтения, модели поведения и многое другое.

3. Типы анализа Big Data

Когда данные собраны из различных источников, перед аналитиками встает вопрос - как именно извлекать из них полезную информацию? Существует несколько основных типов анализа Big Data.

  • Описательная аналитика

Задача этого типа анализа - максимально детально описать, что происходило в прошлом или происходит в настоящее время. Сюда относится построение различных отчетов, выявление тенденций, расчет статистических показателей.

Например, как изменялась выручка компании по кварталам за последние 3 года. Или какова динамика продаж каждого продукта по регионам. Описательная аналитика дает общую картину и факты из данных.

  • Диагностическая аналитика

Этот тип анализа ставит задачу не просто описать данные, но и выявить причинно-следственные связи, закономерности, взаимозависимости между переменными.

К примеру, выявить, какие характеристики товара и каким образом влияют на объем продаж. Или как связаны между собой погодные условия, дорожная обстановка и количество ДТП в городе. Диагностический анализ позволяет понять, почему происходят те или иные события.

  • Предсказательная аналитика

Цель этого вида анализа - спрогнозировать, что может произойти в будущем на основе данных о прошлом и настоящем. Для этого используются методы машинного обучения, нейронные сети, статистическое моделирование.

К классическим задачам предсказательной аналитики относятся прогнозирование спроса и продаж, вероятности оттока клиентов, времени безотказной работы оборудования, вероятности банкротства компании и множество других вопросов, связанных с будущим.

  • Прескриптивная аналитика

Является логическим продолжением предсказательной аналитики. На основе полученных прогнозов она дает конкретные рекомендации, что нужно предпринять, чтобы достичь желаемых результатов.

Например, как оптимально распределить бюджет между каналами продвижения, чтобы максимизировать продажи. Или какие действия необходимо предпринять для снижения вероятности оттока ценных клиентов. Прескриптивная аналитика дает готовые решения для принятия оптимальных бизнес-решений.

Заключение

Big Data представляет собой колоссальные и быстрорастущие объемы самых разных данных, генерируемых практически во всех сферах человеческой деятельности. Чтобы эффективно использовать потенциал Big Data, необходимо понимать особенности этих данных, их виды, источники и методы анализа.

Применение аналитики Big Data помогает компаниям лучше понимать потребителей, оптимизировать бизнес-процессы, снижать риски, выводить на рынок востребованные продукты и многое другое. Эффективное применение Big Data является важным конкурентным преимуществом для бизнеса в современном цифровом мире.