May 17, 2025

BI-платформы: разработка инструкций и сравнение

В нашем распоряжении датасет titanic.csv, содержащий информацию о пассажирах рейса. Каждая запись включает такие ключевые характеристики, как:

  • PassengerId: Уникальный идентификатор пассажира
  • Survived: Факт выживания (0 = Нет, 1 = Да) – наша целевая переменная
  • Pclass: Класс каюты – показатель социально-экономического статуса
  • Name: Имя пассажира
  • Sex: Пол
  • Age: Возраст в годах
  • SibSp: Количество братьев, сестер или супругов на борту
  • Parch: Количество родителей или детей на борту
  • Ticket: Номер билета
  • Fare: Стоимость билета (тариф)
  • Cabin: Номер каюты
  • Embarked: Порт посадки

На основе этих данных мы сформулируем несколько гипотез для проверки:

Гипотеза 1: Влияние класса каюты на выживаемость.

    • Цель: Определить, существует ли зависимость между классом, в котором путешествовал пассажир, и его шансами на спасение.
    • Диаграмма: Столбчатая диаграмма, показывающая количество выживших и погибших по каждому классу каюты.

Гипотеза 2: Связь между возрастом и стоимостью билета.

    • Цель: Исследовать, есть ли корреляция между возрастом пассажира и суммой, уплаченной за билет. Предполагается, что более состоятельные (и, возможно, более возрастные или, наоборот, молодые наследники) могли платить больше.
    • Диаграмма: Scatter plot, где по осям отложены возраст и стоимость билета.

Гипотеза 3: Распределение выживших по полу.

    • Цель: Понять, как пол пассажира повлиял на вероятность выживания, учитывая принцип "женщины и дети первыми".
    • Диаграмма: Круговая диаграмма, иллюстрирующая долю выживших и погибших среди мужчин и женщин.

Для наглядной демонстрации этих гипотез мы воспользуемся тремя различными BI-платформами, построив на каждой из них соответствующий дашборд.

Эксперимент №1: Yandex DataLens

  1. Начальным этапом в Yandex DataLens является создание "воркбука" – нашего рабочего пространства.

2. Далее, через опцию "Создать подключение", мы загружаем наш датасет titanic.csv.

3. После успешной загрузки, датасет должен появиться в списке доступных источников данных.

Приступаем к созданию визуализаций для каждой гипотезы:

4.1. Гипотеза 1 (Класс и выживаемость):

    • Выбираем наш датасет "Титаник".
    • В качестве типа диаграммы указываем "Столбчатая диаграмма".
    • Перетаскиваем поле Pclass (класс каюты) на ось категорий, а агрегированное поле выживаемости на ось значений.
    • Получаем диаграмму, наглядно демонстрирующую распределение.

4.2. Гипотеза 2 (Возраст и стоимость билета):

    • Аналогично предыдущему пункту, выбираем тип диаграммы "Точечная диаграмма" (Scatter plot).
    • Поле Age (возраст) перетаскиваем на одну ось, а Fare (стоимость билета) – на другую. Каждая точка будет представлять пассажира.

4.3. Гипотеза 3 (Выживаемость по полу):

      • Выбираем тип "Круговая диаграмма".
      • В качестве сегментов используем поле Sex (пол), а в качестве значений – количество пассажиров, дополнительно сегментируя по полю Survived (выжившие) с помощью цвета или фильтра.
      • Получаем итоговую круговую диаграмму.

Создаем итоговый дашборд, на который добавляем все три созданные диаграммы, располагая их для удобного восприятия и анализа. Сохраняем результат.

Эксперимент №2: Looker Studio (ранее Google Data Studio)

  1. При необходимости, активируем VPN для доступа к сервису и проходим процесс регистрации/авторизации.
  2. Подгружаем наш CSV-файл titanic.csv в качестве источника данных.
  1. Создаем новый отчет (дашборд), куда будем последовательно добавлять наши визуализации.
    • 3.1 (Гипотеза 1): Выбираем подходящий тип диаграммы (например, столбчатую). Перетаскиваем Pclass в "Dimension" (Измерение) и "Breakdown dimension" для цвета, а "Survived"в "Metric" (Показатель).
    • 3.2 (Гипотеза 2 и 3): Аналогичным образом создаем диаграмму рассеяния для второй гипотезы (Age vs Fare) и круговую диаграмму для третьей (Sex и Survived). Процесс выбора полей и их перетаскивания интуитивно понятен.

Размещаем все созданные диаграммы на итоговом дашборде, компонуя их для наилучшей читаемости.

Эксперимент №3: Tableau Public

  1. Загружаем наш датасет titanic.csv. На этапе подключения важно убедиться, что Tableau корректно определил разделитель полей (обычно это запятая для CSV).
  2. Для каждой гипотезы создаем отдельный "лист" (worksheet):
    • 2.1. Гипотеза 1 (Класс и выживаемость):
      • Перетаскиваем Pclass в раздел "Columns" (Столбцы), а агрегированное поле выживших в "Rows" (Строки)
    • 2.2. Гипотеза 2 (Возраст и стоимость билета):
      • Перетаскиваем Age на "Columns" и Fare на "Rows". Tableau автоматически предложит Scatter plot, если оба поля распознаны как Dimensions.
    • 2.3. Гипотеза 3 (Выживаемость по полу):
      • Перетаскиваем Sex на "Color" и COUNT(PassengerId) на "Angle" (Угол) при выборе типа диаграммы "Pie Chart" (Круговая диаграмма). Дополнительно можно перетащить Survived на "Filters" (Фильтры) или также на "Color" для более детальной разбивки. Если нужно показать только, например, выживших, можно отфильтровать по Survived = 1.
      • Настраиваем цвета для лучшего визуального восприятия.
  1. Создаем новый "Дашборд" и перетаскиваем на него все три созданных листа. Интерфейс Tableau позволяет интуитивно размещать и масштабировать элементы.

Сравнение платформ:

  • Looker Studio представляет собой доступное и интуитивно понятное решение, ориентированное на быструю интеграцию с экосистемой Google. Благодаря простоте подключения к облачным источникам (Google Sheets, BigQuery), а также возможности встраивания дашбордов, данный инструмент оптимален для построения базовой отчетности и простых визуализаций. Однако платформа существенно ограничена в возможностях вычислений, кастомизации визуализаций и работе с параметрами, что делает её менее подходящей для комплексного анализа данных.
  • Yandex DataLens выгодно отличается поддержкой российских облачных сервисов. Платформа предоставляет пользователям базовый, но стабильный набор инструментов визуализации, гибкие механизмы фильтрации и возможности встраивания дашбордов. Несмотря на ограниченную поддержку вычисляемых полей и отсутствие полноценной работы с параметрами, DataLens может быть эффективным решением для аналитических задач внутри Yandex-экосистемы и при работе с локальными данными.
  • Tableau Public, в свою очередь, демонстрирует наибольшую гибкость и функциональную насыщенность. Поддержка широкого спектра визуальных представлений, мощная система вычисляемых полей, наличие параметров и интерактивных действий делают данную платформу идеальной для построения сложных и настраиваемых аналитических панелей.

Таким образом, выбор BI-инструмента должен основываться на специфике задач. Для оперативной визуализации данных "Титаника" с минимальными требованиями к кастомизации можно использовать Looker Studio. При работе с российским ПО или если вы уже в экосистеме Яндекса, Yandex DataLens станет хорошим выбором для анализа данных среднего объема. Для построения комплексных и интерактивных аналитических панелей, позволяющих глубоко исследовать факторы выживаемости на "Титанике", – Tableau Public (с учетом его публичного характера).