Рассмотрим ключевые концепции в теме подбора гиперпараметров к модели машинного обучения. В первую очередь, это инструмент, который в зависимости от ситуации может меняться. Так, если параметров мало и датасет небольшой, то используйте GridSearchCV, если же ситуация обратная, то рекомендую применять RandomizedSearchCV с ограниченным количеством итераций. После нахождения области лучших параметров со вторым инструментом можно использовать более точечный подход с Optuna или Hyperopt.
Рассмотрим, способ построения графика автокорреляции и доверительных интервалов коэффициентов, по которым выбирается количество членов MA в модели ARIMA. Сначала создадим демонстрационный набор данных:
Для оптимизации работы с датафреймом Spark заранее позаботьтесь о задании схемы данных. Это уменьшит время загрузки, сэкономит память и позволит избежать неожиданностей при автоматическом определении типов.
Библиотека оптимизации процесса подбора гиперпараметров Optuna имеет scikit-подобный класс OptunaSearchCV, находящийся в модуле optuna.integration. Этот интерфейс удобнее основного, так как является более привычным. В качестве параметров конструктор OptunaSearchCV принимает:
Накапливающийся бардак в почтовом ящике является хитрым врагом продуктивности. Его негативный эффект растянут по времени и малозаметен в отдельно взятый день. Однако суммарный вред в месячной или годичной перспективе может оцениваться в десятки и сотни рабочих часов.
В этой статье упомянем ключевые возможности, которые открывает перед нами инструмент управления версиями Git. Напомню, что они раскрывались на протяжении ряда статей данного блога с демонстрацией на практических примерах.
Рассмотрим, как визуализировать результаты анализа средствами библиотеки Matplotlib.
Данная функциональность пригодится каждому в процессе активной разработки, так как поможет избежать мучений при тестировании функций, заимствованных из кастомных модулей.
Как узнать неизвестную стоимость квартиры или спрогнозировать расход электроэнергии в населенном пункте? Использовать модель машинного обучения скажете вы.. Но зачастую ваша крутая модель не сработает на части примеров ввиду отсутствия достаточного количества признаков для них.
Проблема передачи больших данных, их сжатия и разбиения набила оскомину для data scientist-ов. В этой статье поделюсь методами решения этих задач.