Аналитика данных
October 5, 2023

Как преобразовывать данные для улучшения их анализа и качества?

Давай разберём пример нормализации данных перед применением алгоритмов машинного обучения.

Шаг 1: Исходные данные
Предположим, у нас есть набор данных, где у нас есть значения в диапазоне от 0 до 1000. Но для нашего алгоритма машинного обучения будет полезнее, если значения будут в нормализованном диапазоне от 0 до 1.

Шаг 2: Нормализация данных
Чтобы нормализовать данные, мы используем следующую формулу:

Пример кода в Python:

def normalize_data(data):
    # Находим минимальное и максимальное значение
    min_val = min(data)
    max_val = max(data)
    # Нормализуем данные
    normalized_data = [(x - min_val) / (max_val - min_val) for x in data]
    return normalized_data
# Пример исходных данных
original_data = [500, 200, 800, 300, 1000]
# Нормализуем данные
normalized_data = normalize_data(original_data)
# Выведем нормализованные данные
print("Нормализованные данные:", normalized_data)

Результат выполнения кода:

Нормализованные данные: [0.375, 0.0, 0.75, 0.125, 1.0]

Пояснение к коду:

  1. Мы создаем функцию normalize_data, которая принимает исходные данные.
  2. Внутри функции находим минимальное и максимальное значение в исходных данных.
  3. Затем мы проходим по каждому элементу в данных и применяем формулу нормализации, сохраняя нормализованные значения в новом списке.
  4. В конце вызываем функцию с примером исходных данных и выводим нормализованные данные.