Факультет Аналитики Big Data

Введение в анализ данных

В первой четверти студенты научатся главному инструменту аналитика — языку SQL. Также изучат основы языка Python и базовые библиотеки Python для анализа данных (NumPy, Pandas, Matplotlib, Scikit-learn). Итогом четверти станет модель по предсказанию непрерывной переменной.

Как учиться эффективно. Видеокурс от методистов GeekUniversity

7 видео-уроков

  • •Особенности обучения в Geek University
  • •Почему тяжело учиться?
  • •Инструменты для самообразования
  • •Учимся от компетенций
  • •Особенности обучения взрослых
  • •Постановка целей по SMART
  • •Как формулировать образовательный запрос

Основы языка Python

1 месяц, 8 уроков

  • •Знакомство с Python
  • •Встроенные типы и операции с ними
  • •Функции
  • •Полезные инструменты
  • •Работа с файлами
  • •Объектно-ориентированное программирование
  • •ООП. Продвинутый уровень
  • •ООП. Полезные дополнения

Базы данных

1 месяц, 12 уроков

  • •Вебинар. Установка окружения. DDL - команды
  • •Видеоурок. Управление БД. Язык запросов SQL
  • •Вебинар. Введение в проектирование БД
  • •Вебинар. CRUD-операции
  • •Видеоурок. Операторы, фильтрация, сортировка и ограничение. Агрегация данных
  • •Вебинар. Операторы, фильтрация, сортировка и ограничение. Агрегация данных
  • •Видеоурок. Сложные запросы
  • •Вебинар. Сложные запросы
  • •Видеоурок. Транзакции, переменные, представления. Администрирование. Хранимые процедуры и функции, триггеры
  • •Вебинар. Транзакции, переменные, представления. Администрирование. Хранимые процедуры и функции, триггеры
  • •Видеоурок. Оптимизация запросов. NoSQL
  • •Вебинар. Оптимизация запросов

Библиотеки Python для Data Science: Numpy, Matplotlib, Scikit-learn

1 месяц, 10 уроков

  • •Вебинар. Введение в курс
  • •Видеоурок. Вычисления с помощью Numpy. Работа с данными в Pandas
  • •Вебинар. Вычисления с помощью Numpy. Работа с данными в Pandas
  • •Видеоурок. Визуализация данных в Matplotlib.
  • •Вебинар. Визуализация данных в Matplotlib
  • •Видеоурок. Обучение с учителем в Scikit-learn
  • •Вебинар. Обучение с учителем в Scikit-learn
  • •Видеоурок. Обучение без учителя в Scikit-learn.
  • •Вебинар. Обучение без учителя в Scikit-learn и введение в итоговый проект
  • •Вебинар. Консультация по итоговому проекту

II

Четверть

Июль - Сентябрь

Сбор, предобработка и хранение данных

Во второй четверти студенты научатся собирать данные из различных источников. Также проработают процессы предобработки неструктурированных данных и их хранения в различных базах данных для дальнейшего анализа. На заключительном этапе познакомятся с популярным инструментом по работе с большими данными — Hadoop.

Методы сбора и обработки данных из сети Интернет

1 месяц, 8 уроков

  • •Основы клиент-серверного взаимодействия. Парсинг API
  • •Парсинг HTML. BeautifulSoup, MongoDB
  • •Системы управления базами данных MongoDB и SQLite в Python
  • •Парсинг HTML. XPath
  • •Scrapy
  • •Scrapy. Парсинг фото и файлов
  • •Selenium в Python
  • •Работа с данными

Базы данных для аналитиков

1 месяц, 8 уроков

  • •Аналитика в бизнес-задачах
  • •Изучение характера поведения пользователей
  • •Типовые методы анализа данных
  • •Типовая аналитика маркетинговой активности
  • •Системы web-аналитики
  • •Хранилища данных для анализа
  • •Системы визуализации данных
  • •Прочие типовые структуры БД

BigData. Введение в экосистему Hadoop

1 месяц, 8 уроков

  • •Базовые операции в HDFS. Консольные утилиты.
  • •Концепция MapReduce. Управление ресурсами через YARN
  • •Работа с данными через Hive и Hue. Обзор PIG и Impala
  • •Заливка данных в Hadoop. Форматы хранения файлов
  • •Потоковая обработка данных. Flume/Flink/SparkStreaming
  • •NoSQL в Hadoop. Hbase/Cassandra
  • •Notebooks. Hue/Jupyter/Zeppelin
  • •Архитектура хранилищ данных

III

Четверть

Октябрь - Декабрь

Алгоритмы обработки и анализа данных. Совместно с компанией X5 Retail Group

В третьей четверти студенты начнут изучение теории вероятностей и математической статистики. Узнают, как работают базовые алгоритмы машинного обучения для решения задач анализа данных и научатся реализовать их с помощью Python. В совместном курсе с компанией X5 Retail Group студенты углубятся в методологии А/Б-тестирования и рассмотрят реализацию полного пайплайна для проверки гипотез в офлайн-ритейле. В курсовом проекте студентам будет необходимо на основе предоставленных данных провести А/Б-тестирование изученными методами.

Теория вероятностей и математическая статистика

1 месяц, 8 уроков

  • •Случайные события. Условная вероятность. Формула Байеса. Независимые испытания
  • •Дискретные случайные величины. Закон распределения вероятностей. Биномиальный закон распределения. Распределение Пуассона
  • •Описательная статистика. Качественные и количественные характеристики популяции. Графическое представление данных
  • •Непрерывные случайные величины. Функция распределения и плотность распределения вероятностей. Равномерное и нормальное распределение. Центральная предельная теорема
  • •Проверка статистических гипотез. P-значения. Доверительные интервалы. A/B-тестирование
  • •Взаимосвязь величин. Параметрические и непараметрические показатели корреляции. Корреляционный анализ.
  • •Многомерный статистический анализ. Линейная регрессия
  • •Дисперсионный анализ. Логистическая регрессия

Алгоритмы анализа данных

1 месяц, 8 уроков

  • •Алгоритм линейной регрессии. Градиентный спуск
  • •Масштабирование признаков. L1- и L2-регуляризация. Стохастический градиентный спуск
  • •Логистическая регрессия. Log Loss
  • •Алгоритм построения дерева решений
  • •Случайный лес
  • •Градиентный бустинг (AdaBoost)
  • •Классификация с помощью KNN. Кластеризация K-means
  • •Снижение размерности данных

IV

Четверть

Январь - Март

Машинное обучение. Рекомендательные системы

В четвертой четверти студенты погрузятся в прикладное машинное обучение: решат несколько бизнес-кейсов с применением ML, а также подробно изучат популярный фреймворк для работы с BigData — Apache Spark. Курсовой проект будет включать разработку рекомендательной системы.

Машинное обучение в бизнесе

1 месяц, 9 уроков

  • •Кейс 1. EDA по Hourly Energy Consumption и Brent
  • •Кейс 1. Преобразование признаков
  • •Кейс 1. Работа с признаками и селекция
  • •Кейс 1. Построение и оценка модели
  • •Кейс 1. Аномалии и артефакты
  • •Кейс 2. Данные в страховом бизнесе. EDA
  • •Кейс 2. Типы моделей для задачи тарификации
  • •Кейс 2. Типы моделей для задачи оттока
  • •Кейс 2. Внедрение модели в продукцию

BigData. Фреймворк Apache Spark

1 месяц, 4 урока

  • •MLlib. Линейная регрессия
  • •MLlib. Логистическая регрессия
  • •MLlib. Дерево решений и случайный лес
  • •MLlib. Метод K-средних

Рекомендательные системы

1 месяц, 6 уроков

  • •Практические задачи машинного обучения
  • •Задачи классификации
  • •Анализ временных рядов
  • •Предикативные модели
  • •Практика решения задач
  • •Практика решения задач (продолжение)

ВТОРОЙ

ГОД

I

Четверть

Апрель - Июнь

Аналитика Big Data для бизнеса

В пятой четверти студенты научатся решать задачи ML с отзывами клиентов, геоданными и соцсетями. Также освоят несколько задач бизнес-аналитика в современных BI-системах: построение витрин данных, прогнозирование, управление знаниями и отчетность.

Системы машинного обучения в Production

1 месяц, 5 уроков

  • •Введение в задачу предсказания оттока. Формализация задачи и сбор сырых данных
  • •Загрузка данных и построение обучающей выборки. Анализ и предобработка датасета. Балансировка классов
  • •Выбор и обучение модели на отобранных признаках. Сравнение качества и оценка модели
  • •Оценка потенциального влияния на бизнес. Масштабирование решения
  • •Подготовка к продакшену. Планировщик задач и перенос проекта из Jupyter в PyCharm

Бизнес-аналитика. BI-системы

1,5 месяца, 8 уроков

  • •Что такое BI-система
  • •Предмет бизнес-анализа
  • •Понятие OLAP-кубов
  • •Витрины данных
  • •Прогнозирование
  • •Управление знаниями
  • •Отчетность
  • •Система QlikView

II

Четверть

Июль - Сентябрь

Выпускной проект

В финальной четверти студенты познакомятся с real-time системой обработки и анализа больших данных на основе Kafka и Apache Streaming. Также 2 месяца будут посвящены работе над выпускным проектом.

BigData. Продвинутый уровень

1,5 месяца, 8 уроков

  • •СУБД Hive и язык запросов HiveQL
  • •NoSQL СУБД HBase
  • •СУБД Cassandra
  • •Передача данных с помощью Sqoop
  • •ZooKeeper, Flink1
  • •Kafka
  • •SparkStreaming
  • •Apache Zeppelin

Финальный проект

2 месяца, 8 уроков

  • •Исследование проекта
  • •Сбор данных
  • •Обогащение данных
  • •Анализ данных. Часть 1
  • •Анализ данных. Часть 2
  • •Построение витрины
  • •Обучение модели
  • •Рекомендации для бизнеса

~

Курсы вне четверти

Введение в Linux и облачные вычисления

1 месяц, 8 уроков

  • •Linux и облачные вычисления. Создание и запуск сервера Linux в AWS. Использование Putty и WinSCP
  • •Общие команды Linux для работы с файлами и папками. Вызов документации по командам
  • •Обзор текстовых редакторов (nano, less, vim). Работа с текстовыми файлами в командной строке. Конкатенация файлов (cat). Объединение команд
  • •Права в Linux. Установка программ. Создание и запуск скриптов Python в Linux
  • •Мониторинг ресурсов (оперативная память, процессоры, диски). Использование утилиты htop. Архивирование файлов. Поиск данных
  • •Обзор дополнительных возможностей AWS для работы с данными
  • •Способы выбора данных из файла. Команды awk, sed, grep. Регулярные выражения
  • •Использование переменных и циклов в командной строке. Просмотр истории команд. Запуск программ по расписанию (cron)

Подготовка к собеседованию аналитика Big Data

1 месяц, 6 уроков

  • •Общие правила приема аналитика на работу
  • •Типичные профессиональные вопросы
  • •Базы данных
  • •Математическая статистика и теория вероятностей
  • •Машинное обучение
  • •Бизнес-аналитика

Введение в высшую математику

1 месяц, 8 уроков

  • •Видеоурок “Элементарная алгебра”
  • •Вебинар “Элементарная алгебра”
  • •Видеоурок “Введение в аналитическую геометрию. Графики на плоскости”
  • •Вебинар “Введение в аналитическую геометрию. Графики на плоскости”
  • •Видеоурок. Элементы теории вероятностей
  • •Вебинар “Элементы теории вероятностей”
  • •Видеоурок “Введение в линейную алгебру”
  • •Вебинар “Введение в линейную алгебру”

Алгоритмы и структуры данных на Python. Интерактивный курс

1 месяц, 9 уроков

  • •Введение в Алгоритмизацию и простые алгоритмы на Python
  • •Циклы, рекурсия, функции
  • •Массивы
  • •Эмпирическая оценка алгоритмов
  • •Коллекции. Модуль Collections
  • •Работа с динамической памятью
  • •Алгоритмы сортировки
  • •Графы
  • •Деревья. Хеш-функции

Git. Базовый курс

13 видео-уроков

  • •Введение в Git
  • •Установка и настройка Git
  • •Основные команды терминала
  • •Работа с репозиториями в Git
  • •Управление файлами репозитория
  • •История изменений
  • •Работа с ветками репозитория
  • •Публикация репозитория
  • •Слияния веток
  • •Управление версиями
  • •Создание pull-request
  • •Сложные операции
  • •Работа с Fork-репозиториями