Властелин машин
@dt_analytic
Всё о передовых инструментах исследования и трюках продуктивности, чтобы стать крутым аналитиком и специалистом по машинному обучению на Python.
419 posts
обзор

Лучшее о подборе гиперпараметров к модели

Рассмотрим ключевые концепции в теме подбора гиперпараметров к модели машинного обучения. В первую очередь, это инструмент, который в зависимости от ситуации может меняться. Так, если параметров мало и датасет небольшой, то используйте GridSearchCV, если же ситуация обратная, то рекомендую применять RandomizedSearchCV с ограниченным количеством итераций. После нахождения области лучших параметров со вторым инструментом можно использовать более точечный подход с Optuna или Hyperopt.

Определение доверительных интервалов автокорреляционных коэффициентов временных рядов

Рассмотрим, способ построения графика автокорреляции и доверительных интервалов коэффициентов, по которым выбирается количество членов MA в модели ARIMA. Сначала создадим демонстрационный набор данных:

Создание схемы данных в Spark

Для оптимизации работы с датафреймом Spark заранее позаботьтесь о задании схемы данных. Это уменьшит время загрузки, сэкономит память и позволит избежать неожиданностей при автоматическом определении типов.

Подбор гиперпараметров модели с OptunaSearchCV

Библиотека оптимизации процесса подбора гиперпараметров Optuna имеет scikit-подобный класс OptunaSearchCV, находящийся в модуле optuna.integration. Этот интерфейс удобнее основного, так как является более привычным. В качестве параметров конструктор OptunaSearchCV принимает:

Магия поиска в Outlook, чтобы разобраться с бардаком в почте

Накапливающийся бардак в почтовом ящике является хитрым врагом продуктивности. Его негативный эффект растянут по времени и малозаметен в отдельно взятый день. Однако суммарный вред в месячной или годичной перспективе может оцениваться в десятки и сотни рабочих часов.

Что крутого можно сделать с Git

В этой статье упомянем ключевые возможности, которые открывает перед нами инструмент управления версиями Git. Напомню, что они раскрывались на протяжении ряда статей данного блога с демонстрацией на практических примерах.

Графика на Python с Matplotlib

Рассмотрим, как визуализировать результаты анализа средствами библиотеки Matplotlib.

Перезагрузка модулей в Python, которая помогает избежать головной боли

Данная функциональность пригодится каждому в процессе активной разработки, так как поможет избежать мучений при тестировании функций, заимствованных из кастомных модулей.

Ищем значения скрытых свойств по советам соседей

Как узнать неизвестную стоимость квартиры или спрогнозировать расход электроэнергии в населенном пункте? Использовать модель машинного обучения скажете вы.. Но зачастую ваша крутая модель не сработает на части примеров ввиду отсутствия достаточного количества признаков для них.

2 способа упаковки Big Data в ручную кладь

Проблема передачи больших данных, их сжатия и разбиения набила оскомину для data scientist-ов. В этой статье поделюсь методами решения этих задач.