властелин машин
@dt_analytic
Всё о передовых инструментах исследования и трюках продуктивности, чтобы стать крутым аналитиком и специалистом по машинному обучению на Python.
1 Follower
2 Following
242 posts
обработка данных

Детектируем пустые значения в датафрейме

Даже на завершающем этапе обработки данных часто сталкиваешься с проблемой наличия пропущенных значений. Они могли изначально быть не заполнены или появиться после применения определенных функций. На этот случай следует придумать, что делать с такими полями дальше. Рассмотрим универсальный инструментарий локализации "проблемных" значений.

2 коварные особенности, которые вызовут ошибки при работе с датафреймом

Знатоков стандартных библиотек Python мир данных в Pandas может удивлять. Некоторые его особенности лучше знать, чтобы уберечь себя от ошибок. О двух вещах, на которых программисты часто оступаются, я расскажу в этой статье.

Снимаем цифровую маску с Python

Как быстро убедиться в том, что в искомой колонке датафрейма находится числовое значение? В этой статье рассмотрим несколько приемов разделения мусора от цифровой информации.

Главные объекты для работы с датой и временем в Pandas

Модели машинного обучения, базирующиеся на временных рядах, требуют хороших навыков обработки даты и времени. В этой статье рассмотрим основные объекты, представляющий необходимый функционал в Pandas.

Интеллектуальное преобразование строк в формат даты и времени

Преобразование входных строк в формат даты и времени стоит в основе подготовки данных для ряда моделей машинного обучения. В этой статье рассмотрим инструментарий Pandas, позволяющий решить указанную задачу.

Интеллектуальная выборка колонок датафрейма

Хватит тратить время на ручное извлечение столбцов по их именам или индексам, пора пользоваться более продвинутыми механизмами, о которых и пойдет речь в этой статье. В качестве критериев для интеллектуальной выборки возьмем соответствие их имен и типов неким правилам.

Подмена в прогнозах, которой никто не рад

Рассмотрим неприятную задачу подмены значений в прогнозах, вызванную изменениями в первоначальных условиях использования модели машинного обучения. В реальной жизни время от времени такое происходит и надо быть к этому готовым.

Эффективная модификация значений датафрейма, чтобы избежать капризов Pandas

В этой статье рассмотрим ключевые походы к изменению значений в ячейках датафрейма Pandas - наиболее популярного формата первичной обработки данных для любителей Python. Оценку способов будем производить исходя из их результативности, скорости и трудозатратности.

Успокоительный алгоритм для безошибочных прогнозов

Хочу поделиться алгоритмом, который позволяет выявить ошибки при правке прогнозов модели машинного обучения. Конечно, в расчет берется ситуация, когда вы не можете просмотреть все записи ввиду их большого количества.

Творческий Pandas

С Pandas вам доступны все ключевые инструменты работы с графикой. При этом интерфейс гораздо проще, чем у родных функций и методов библиотеки Matplotlib. Рассмотрим это на примере.