November 5, 2022

Логарифмирование и преобразование переменных

Помните ли вы, что такое логарифмы и для чего они нужны? Если забыли, то давайте напомним в этом посте.
В аналитике это очень полезная и мощная вещь, у которой самые разнообразные варианты использования. В этой статье мы коротко рассмотрим только некоторые случаи применения логарифмов в аналитических задачах.

Теория

Вспомним, что такое логарифм – это степень, в которую надо возвести число А (основание), чтобы получить число B. При этом основания у логарифмов могут быть разными, но самые распространенные – это десятичный (основание 10) и натуральный логарифм (основание 2.71828 или e, или число Эйлера).

Для примера возьмем логарифм с основанием 10 (число А) и прологарифмируем три числа – 10, 100 и 1000 (числа B). Мы получим 1, 2 и 3 (степени) соответственно. Обратное действие, если число 10 возвести в 1, 2 и 3 степени, то мы снова получим 10, 100 и 1000.

Что нам это даёт как аналитикам? Первый случай применения — это когда нам нужно изменить распределение данных. Вы помните из статьи про нормальное распределение [1], что оно может выступать обязательным требованием для ряда статистических инструментов. В реальной жизни нормальное распределение встречается далеко не всегда, а статистические инструменты мы все же хотели бы применять. Тут на помощь и приходят разные математические приёмы, которые позволяют это сделать. Когда наше распределение выглядит как на картинке слева (логнормальное) мы можем с помощью логарифмирования превратить его в нормальное, как на картинке справа.

Бывают и другие случаи, когда ваше распределение не логнормальное, а какое-то иное, и тут логарифмирование может не исправить ситуацию, но есть дополнительные методы преобразования переменных [2]. А ещё можно поиграться и сравнить, как разные наборы данных будут выглядеть на различных шкалах, в том числе, на логарифмической [3].

Второй случай использования логарифмов – это оценить рост показателя, к примеру заболеваемости. Хороший пример дан в этой статье [4], в которой показаны данные по статистике COVID и как с помощью логарифмической шкалы можно увидеть, растет или нет уровень заболеваемости и в какой период.

Третий случай – это использовать логарифмы для оценки процентного отношения между значениями. Особенно это важно при интерпретации коэффициентов логистической регрессии, регрессии Пуассона и пр., мы будем про это говорить отдельно в статьях про регрессию.

Практика

Решим задачку по «выправлению» логнормального распределения в нормальное в Jamovi.

На входе у нас есть 1000 наблюдений, сохраненные в переменной x. Построив гистограмму, видим, что наше распределение выглядит как логнормальное, а следовательно, с помощью логарифмов мы можем его «нормализовать».

Получить натуральные логарифмы в Jamovi очень просто, для этого добавляем новую колонку с помощью команды «Compute» и в окне формула пишем LN(наша переменная).

Построим гистограмму для нашей новой переменной и убедимся, что распределение стало похожим на нормальное.

Ссылки:

1. https://teletype.in/@h0h1_hr_analytics/yyWgg3xIZEA

2. Chris Chapman, Elea McDonnell Feit. R for Marketing Research and Analytics (4.5.4 Typical Marketing Data Transformations, 4.5.5 Box-Cox Transformations).

3. http://revealthedata.com/examples/scales/

4. https://towardsdatascience.com/whats-a-logarithm-cca50d031241