Властелин машин on Teletype

Властелин машин

@dt_analytic

Всё о передовых инструментах исследования и трюках продуктивности, чтобы стать крутым аналитиком и специалистом по машинному обучению на Python.

425 posts

инструменты аналитика

spark

математика

обзор

Властелин машинJanuary 23, 2023

Лучшее о подборе гиперпараметров к модели

Рассмотрим ключевые концепции в теме подбора гиперпараметров к модели машинного обучения. В первую очередь, это инструмент, который в зависимости от ситуации может меняться. Так, если параметров мало и датасет небольшой, то используйте GridSearchCV, если же ситуация обратная, то рекомендую применять RandomizedSearchCV с ограниченным количеством итераций. После нахождения области лучших параметров со вторым инструментом можно использовать более точечный подход с Optuna или Hyperopt.

173

Властелин машинNovember 17, 2022

Определение доверительных интервалов автокорреляционных коэффициентов временных рядов

Рассмотрим, способ построения графика автокорреляции и доверительных интервалов коэффициентов, по которым выбирается количество членов MA в модели ARIMA. Сначала создадим демонстрационный набор данных:

318

Властелин машинNovember 1, 2022

Создание схемы данных в Spark

Для оптимизации работы с датафреймом Spark заранее позаботьтесь о задании схемы данных. Это уменьшит время загрузки, сэкономит память и позволит избежать неожиданностей при автоматическом определении типов.

217

Властелин машинMay 6, 2022

Подбор гиперпараметров модели с OptunaSearchCV

Библиотека оптимизации процесса подбора гиперпараметров Optuna имеет scikit-подобный класс OptunaSearchCV, находящийся в модуле optuna.integration. Этот интерфейс удобнее основного, так как является более привычным. В качестве параметров конструктор OptunaSearchCV принимает:

1 453

Властелин машинSeptember 15, 2021

Магия поиска в Outlook, чтобы разобраться с бардаком в почте

Накапливающийся бардак в почтовом ящике является хитрым врагом продуктивности. Его негативный эффект растянут по времени и малозаметен в отдельно взятый день. Однако суммарный вред в месячной или годичной перспективе может оцениваться в десятки и сотни рабочих часов.

Властелин машинAugust 21, 2021

Что крутого можно сделать с Git

В этой статье упомянем ключевые возможности, которые открывает перед нами инструмент управления версиями Git. Напомню, что они раскрывались на протяжении ряда статей данного блога с демонстрацией на практических примерах.

Властелин машинAugust 18, 2021

Графика на Python с Matplotlib

Рассмотрим, как визуализировать результаты анализа средствами библиотеки Matplotlib.

418

Властелин машинAugust 13, 2021

Перезагрузка модулей в Python, которая помогает избежать головной боли

Данная функциональность пригодится каждому в процессе активной разработки, так как поможет избежать мучений при тестировании функций, заимствованных из кастомных модулей.

202

Властелин машинAugust 3, 2021

Ищем значения скрытых свойств по советам соседей

Как узнать неизвестную стоимость квартиры или спрогнозировать расход электроэнергии в населенном пункте? Использовать модель машинного обучения скажете вы.. Но зачастую ваша крутая модель не сработает на части примеров ввиду отсутствия достаточного количества признаков для них.

Властелин машинJuly 12, 2021

2 способа упаковки Big Data в ручную кладь

Проблема передачи больших данных, их сжатия и разбиения набила оскомину для data scientist-ов. В этой статье поделюсь методами решения этих задач.