Машинное обучение кластеризация и классификация на Python
Это второй курс из серии Машинное обучение без учителя. На нем вы освоите работу с кластеризацией данных и поиском аномалий на примере задача хакатона Яндекс.Недвижимости по прогнозу срока экспозиции объявлений.
Курс разбит на 4 части. В первой части мы последовательно пройдем все этапы работы с данными: от видов задач и их постановки до работы с моделями машинного обучения для минимизации предсказательной ошибки. Дополнительно рассмотрим фундаментальные основы построения моделей машинного обучения, базовые метрики и наиболее простые модели - линейную регрессию, а также ансамбли машинного обучения.
Вторая часть посвящена базовым моделям кластеризации:
Изучите внешние и внутренние метрики кластеризации.
Разберете модели К-средних и FOREL и потренируетесь в их применении.
Рассмотрите принципы работы агломеративной кластеризации и используете ее на практике.
Узнаете про расстояние Махаланобиса и работу GMM.
В качестве задания соберем простую модель кластеризации исходных данных.
В третьей части перейдем к продвинутой кластеризации:
Погрузитесь в различия моделей DBSCAN, HDBSCAN и OPTICS.
Разберете особенности модели распространения близости.
Посмотрите на расширяющийся нейронный газ.
Запустите и обучите самоорганизующиеся карты Кохонена (SOM).
Столкнетесь с матрицей Кирхгофа и спектральной кластеризацией.
И соберем ансамбль из несколько моделей кластеризации.
Изучите поиск аномалий и метрику pAUC.
Используете тест Смирнова-Граббса на практике.
Потренируетесь в эллипсоидальной аппроксимации.
Разберете разницу между LOF и ABOD.
Обучите и используете модель COPOD.
Вырастите как iForest, как и расширенный лес изоляции.
Модель и процесс машинного обучения
Что такое ETL
Процесс машинного обучения
Что такое EDA
Подготовка данных
Подготовка данных
Разбиение выборки
Оптимизация гиперпараметров
Недообучение и переобучение
Смещение, разброс и ошибка данных
Обучение модели
Внешние метрики кластеризации
Внутренние метрики кластеризации
К-средних
Агломеративная кластеризация
FOREL
Расстояние Махаланобиса
Прогноз срока экспозиции объявления
Очистка и предобработка данных
Обогащение данных
Выделение факторов
K-средних
Агломеративная кластеризация
GMM
Метрики кластеризации
Оптимальное число кластеров
DBSCAN
OPTICS
Affinity Propagation
Диаграмма Вороного
Расширяющийся нейронный газ
Самоорганизующиеся карты Кохонена (SOM)
Матрица Кирхгофа
Спектральная кластеризация
Продвинутая кластеризация
DBSCAN
HDBSCAN
OPTICS
Affinity Propagation
Самоорганизующиеся карты Кохонена
Спектральная кластеризация
Классификация через кластеры
Классификация объявлений
Обнаружение аномалий
Эксцесс и асимметрия
Тест Смирнова-Граббса
Метрика pAUC
Эллипсоидальная аппроксимация
Локальный фактор выброса (LOF)
ABOD
COPOD
Лес изоляции (iForest)
Автокодировщики
Обнаружение аномалий
Смотреть сразу в Telegram 👉 https://t.me/python_cours
Наш канал собрал самые свежие и актуальных обучающих курсы, книги, soft, идеальная навигация по курсам в два клика и прямая ссылка на любой курс. Нет регистраций. Нет оплаты.
С вами администрация канала Max Open Source (@coursmax)