BI-платформы: разработка инструкций и сравнение
В нашем распоряжении датасет titanic.csv, содержащий информацию о пассажирах рейса. Каждая запись включает такие ключевые характеристики, как:
- PassengerId: Уникальный идентификатор пассажира
- Survived: Факт выживания (0 = Нет, 1 = Да) – наша целевая переменная
- Pclass: Класс каюты – показатель социально-экономического статуса
- Name: Имя пассажира
- Sex: Пол
- Age: Возраст в годах
- SibSp: Количество братьев, сестер или супругов на борту
- Parch: Количество родителей или детей на борту
- Ticket: Номер билета
- Fare: Стоимость билета (тариф)
- Cabin: Номер каюты
- Embarked: Порт посадки
На основе этих данных мы сформулируем несколько гипотез для проверки:
Гипотеза 1: Влияние класса каюты на выживаемость.
Гипотеза 2: Связь между возрастом и стоимостью билета.
Гипотеза 3: Распределение выживших по полу.
Для наглядной демонстрации этих гипотез мы воспользуемся тремя различными BI-платформами, построив на каждой из них соответствующий дашборд.
Эксперимент №1: Yandex DataLens
2. Далее, через опцию "Создать подключение", мы загружаем наш датасет titanic.csv.
3. После успешной загрузки, датасет должен появиться в списке доступных источников данных.
Приступаем к созданию визуализаций для каждой гипотезы:
4.1. Гипотеза 1 (Класс и выживаемость):
4.2. Гипотеза 2 (Возраст и стоимость билета):
4.3. Гипотеза 3 (Выживаемость по полу):
Создаем итоговый дашборд, на который добавляем все три созданные диаграммы, располагая их для удобного восприятия и анализа. Сохраняем результат.
Эксперимент №2: Looker Studio (ранее Google Data Studio)
- При необходимости, активируем VPN для доступа к сервису и проходим процесс регистрации/авторизации.
- Подгружаем наш CSV-файл titanic.csv в качестве источника данных.
Размещаем все созданные диаграммы на итоговом дашборде, компонуя их для наилучшей читаемости.
Эксперимент №3: Tableau Public
- Загружаем наш датасет titanic.csv. На этапе подключения важно убедиться, что Tableau корректно определил разделитель полей (обычно это запятая для CSV).
- Для каждой гипотезы создаем отдельный "лист" (worksheet):
- 2.3. Гипотеза 3 (Выживаемость по полу):
- Перетаскиваем Sex на "Color" и COUNT(PassengerId) на "Angle" (Угол) при выборе типа диаграммы "Pie Chart" (Круговая диаграмма). Дополнительно можно перетащить Survived на "Filters" (Фильтры) или также на "Color" для более детальной разбивки. Если нужно показать только, например, выживших, можно отфильтровать по Survived = 1.
- Настраиваем цвета для лучшего визуального восприятия.
- Создаем новый "Дашборд" и перетаскиваем на него все три созданных листа. Интерфейс Tableau позволяет интуитивно размещать и масштабировать элементы.
- Looker Studio представляет собой доступное и интуитивно понятное решение, ориентированное на быструю интеграцию с экосистемой Google. Благодаря простоте подключения к облачным источникам (Google Sheets, BigQuery), а также возможности встраивания дашбордов, данный инструмент оптимален для построения базовой отчетности и простых визуализаций. Однако платформа существенно ограничена в возможностях вычислений, кастомизации визуализаций и работе с параметрами, что делает её менее подходящей для комплексного анализа данных.
- Yandex DataLens выгодно отличается поддержкой российских облачных сервисов. Платформа предоставляет пользователям базовый, но стабильный набор инструментов визуализации, гибкие механизмы фильтрации и возможности встраивания дашбордов. Несмотря на ограниченную поддержку вычисляемых полей и отсутствие полноценной работы с параметрами, DataLens может быть эффективным решением для аналитических задач внутри Yandex-экосистемы и при работе с локальными данными.
- Tableau Public, в свою очередь, демонстрирует наибольшую гибкость и функциональную насыщенность. Поддержка широкого спектра визуальных представлений, мощная система вычисляемых полей, наличие параметров и интерактивных действий делают данную платформу идеальной для построения сложных и настраиваемых аналитических панелей.
Таким образом, выбор BI-инструмента должен основываться на специфике задач. Для оперативной визуализации данных "Титаника" с минимальными требованиями к кастомизации можно использовать Looker Studio. При работе с российским ПО или если вы уже в экосистеме Яндекса, Yandex DataLens станет хорошим выбором для анализа данных среднего объема. Для построения комплексных и интерактивных аналитических панелей, позволяющих глубоко исследовать факторы выживаемости на "Титанике", – Tableau Public (с учетом его публичного характера).