Аналитика данных
October 5, 2023
Как преобразовывать данные для улучшения их анализа и качества?
Давай разберём пример нормализации данных перед применением алгоритмов машинного обучения.
Шаг 1: Исходные данные
Предположим, у нас есть набор данных, где у нас есть значения в диапазоне от 0 до 1000. Но для нашего алгоритма машинного обучения будет полезнее, если значения будут в нормализованном диапазоне от 0 до 1.
Шаг 2: Нормализация данных
Чтобы нормализовать данные, мы используем следующую формулу:
def normalize_data(data): # Находим минимальное и максимальное значение min_val = min(data) max_val = max(data) # Нормализуем данные normalized_data = [(x - min_val) / (max_val - min_val) for x in data] return normalized_data # Пример исходных данных original_data = [500, 200, 800, 300, 1000] # Нормализуем данные normalized_data = normalize_data(original_data) # Выведем нормализованные данные print("Нормализованные данные:", normalized_data)
Нормализованные данные: [0.375, 0.0, 0.75, 0.125, 1.0]
- Мы создаем функцию
normalize_data
, которая принимает исходные данные. - Внутри функции находим минимальное и максимальное значение в исходных данных.
- Затем мы проходим по каждому элементу в данных и применяем формулу нормализации, сохраняя нормализованные значения в новом списке.
- В конце вызываем функцию с примером исходных данных и выводим нормализованные данные.