Властелин машин on Teletype

Властелин машин

@dt_analytic

Всё о передовых инструментах исследования и трюках продуктивности, чтобы стать крутым аналитиком и специалистом по машинному обучению на Python.

430 posts

инструменты аналитика

spark

математика

обработка данных

Властелин машинJune 20

Как сократить размеры датафрейма в разы: учим Pandas сидеть на диете

В мире данных размер имеет значение, а компактность - признак мастерства. Правильная типизация в подавляющем большинстве случаев поможет оптимизировать память и увеличить скорость вычислений. Посмотрим как выбрать правильные типы автоматически. Для этого сгенерируем учебный датафрейм.

Властелин машинFebruary 10

BM25Retriever под капотом

В современных rag системах центральным инструментом являются ретриверы - объекты, которые отвечают за поиск близкой к запросу информации (контекста). Одним из них является BM25Retriever, основанный на частоте встречаемости. В отличие от аналогов, использующих векторные представления, он полагается на точные совпадение единиц, на которые разбит текст (токенов).

Властелин машинAugust 4, 2023

Наглядный способ визуализации разницы в двух таблицах

Рассмотрим, простой метод получения разницы в двух датафреймах. Он идеально подойдет, когда надо убедиться в правильности примененных к таблице преобразований. Создадим демонстрационный датасет:

Властелин машинJune 5, 2023

Функциональный трансформер, как создавать и когда использовать

Функциональная трансформация поможет быстро создать преобразование колонок для пайплайна без сохранения состояния (создание других описывал здесь). Эта возможность реализована в классе FunctionTransformer из модуля sklearn.preprocessing. Например, это могут быть преобразования для создания цикличных признаков (из месяца, часа как здесь) или для извлечения слов из текста, его длины или других характеристик. Создадим демонстрационный набор из температур по месяцам и сделаем из месяца цикличный признак с помощью функционального трансформера:

237

Властелин машинMay 28, 2023

Библиотека missingno для исследования пропусков

Рассмотрим возможности инструмента missingno для изучения пропусков в датафрейме. Сначала сгенерируем тренировочный датасет:

1 106

Властелин машинMay 19, 2023

Простые способы maping-а значений с Pandas

Жизнь любого человека — зеркальное отражение его представлений о ней (Макс Фрай). Очень распространенной табличной операцией является отображение значений колонки по некоторому словарю. Рассмотрим основные способы и их специфику.

Властелин машинMay 11, 2023

Анатомия пайплайнов, рассеиваем туман над сложной структурой данных

Оттого что мысли мои не облекаются в слова, чаще всего они остаются хлопьями тумана. Они принимают смутные, причудливые формы, набегают одна на другую, и я тотчас их забываю (Жан-Поль Сартр). Разберем ключевые свойства sklearn пайплайна (pipeline) и приемы их модификации. Сначала создадим демонстрационный датафрейм:

Властелин машинApril 28, 2023

Передовой способ вычисления взаимосвязи с библиотекой phik

Раскрываемый в статье метод более универсален, чем другие, так как позволяется вычислять взаимосвязи между различными типами признаков (категориальными, непрерывными и их комбинациями), в нем используются передовые статистические методики и его легко применить с библиотекой phik.

2.3K

Властелин машинApril 15, 2023

Корреляция Спирмена, когда полезна и почему о ней надо знать

Осознанность — это восприятие всех деталей происходящего по отдельности и в целом. Когда ты переживаешь их, видишь, понимаешь суть и взаимосвязи (Ольга Нестерова). Самым распространенным способом определения зависимости между признаками является корреляция Пирсона, но она обладает рядом особенностей, в том числе не устойчива к выбросам. В демонстрационных целях рассмотрим корреляцию для двух датафреймов, в которых отличаются только последние строки (используем метод corr, в котором по умолчанию применяется способ Пирсона - method='pearson'):

639

Властелин машинApril 11, 2023

Быстрый способ загрузки тренировочных данных для машинного обучения

Причина моего провала очевидна: я мало тренировался. И кроме того, я мало тренировался. И еще — я мало тренировался. Это если так, вкратце (Харуки Мураками). Во многих библиотеках машинного обучения есть встроенные способы загрузки наборов данных. В силу того, что scikit-learn является де-факто стандартом для разработки моделей, она обладает богатым инструментарием для этого. Он компактно сконцентрирован в модуле sklearn.datasets и для его первичного обзора проще всего воспользоваться функцией dir:

233