Аналитика данных
October 5, 2023
Как преобразовывать данные для улучшения их анализа и качества?
Давай разберём пример нормализации данных перед применением алгоритмов машинного обучения.
Шаг 1: Исходные данные
Предположим, у нас есть набор данных, где у нас есть значения в диапазоне от 0 до 1000. Но для нашего алгоритма машинного обучения будет полезнее, если значения будут в нормализованном диапазоне от 0 до 1.
Шаг 2: Нормализация данных
Чтобы нормализовать данные, мы используем следующую формулу:
def normalize_data(data):
# Находим минимальное и максимальное значение
min_val = min(data)
max_val = max(data)
# Нормализуем данные
normalized_data = [(x - min_val) / (max_val - min_val) for x in data]
return normalized_data
# Пример исходных данных
original_data = [500, 200, 800, 300, 1000]
# Нормализуем данные
normalized_data = normalize_data(original_data)
# Выведем нормализованные данные
print("Нормализованные данные:", normalized_data)Нормализованные данные: [0.375, 0.0, 0.75, 0.125, 1.0]
- Мы создаем функцию
normalize_data, которая принимает исходные данные. - Внутри функции находим минимальное и максимальное значение в исходных данных.
- Затем мы проходим по каждому элементу в данных и применяем формулу нормализации, сохраняя нормализованные значения в новом списке.
- В конце вызываем функцию с примером исходных данных и выводим нормализованные данные.