Vladi PATOK

Какими навыками должен обладать аналитик данных?

vladimirvanalytics — Mon, 25 Sep 2023 14:47:51 GMT

Задался вопросом, какими навыками должен обладать аналитик данных, и чтобы не рыть весь интернет, решил провести своё мини-исследование.

На сегодняшний день, 25.09.2023, на hh.ru 607 вакансий по запросу "аналитик данных" и 292 по запросу "Data analyst". Соберу описание всех вакансий и построю облако тегов.

Поехали

Первое облако

Из этого облака не видно, какие навыки необходимы — алгоритм просто показал наиболее употребляемые слова. Добавляю нерелевантные фразы в список минус-слов (например, что-то из интернет-маркетинга).

Второй раунд

Добавил список минус слов.

В этом варианте уже можно рассмотреть некоторые теги, однако слова "данные", "анализ" мешают. Добавлю их в список.

Уже лучше, но всё равно много "шума".

Третий вариант

Могу предположить, что вы должны уметь разбираться в бизнес-процессах. Добавлю "бизнес", "процесс", "работа", "рост", "информация", "современный" в список минус-слов.

Здесь уже можно рассмотреть SQL, Excel, Python, визуализацию. А также выделяются "отчёт", "построение".

Делаем вывод: умение построить и визуализировать отчёт, сбор и обработка данных.

Разобрались с "умением" - добавлю его в список минус слов.

Окончательный вариант

Максимально окончательный вариант. Добавил больше 300 минус-слов, со словоформами и вот итог:

В любом случае придется работать как бы намёк!

Делаем вывод, для аналитика данных, основные навыки:

Умение работать)
Построение различный моделей
Визуализация отчетов
Умение разбираться в бизнес процессах
Умеете sql, python, excel

Финал

После двух дней и 3000 минус-слов, получилось добраться до технологий

Предсказание цены автомобиля с помощью методов машинного обучения

vladimirvanalytics — Sat, 23 Sep 2023 22:14:13 GMT

В прошлом посте провел разведочный анализ данных по автомобилям собранным с сайта.

В этом посте применим методы машинного обучения чтобы попытаться предсказать цену автомобиля.

Вот несколько алгоритмов, которые могут подойти для этой задачи:

Линейная регрессия (Linear Regression):

Простой и интерпретируемый метод.
Хорошо работает, если существует линейная зависимость между признаками и целевой переменной.

Решающие деревья (Decision Trees) и Случайный лес (Random Forest):

Могут улавливать нелинейные зависимости.
Random Forest обычно предоставляет более точные прогнозы, чем отдельное решающее дерево, за счет усреднения прогнозов множества деревьев.

Градиентный бустинг (Gradient Boosting), например, XGBoost или LightGBM:

Эффективные алгоритмы, которые часто показывают высокую производительность в задачах регрессии.
Они строят ансамбль деревьев последовательно, каждое следующее дерево пытается исправить ошибки предыдущих.

Нейронные сети (Neural Networks):

Могут быть полезными, если у вас большое количество данных.
Способны улавливать сложные нелинейные зависимости.

Линейная регрессия

Линейная регрессия предполагает, что мы хотим прогнозировать одну переменную на основе других переменных.

# Разделение данных на обучающие и тестовые 
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# Создание и обучение модели 
LR = LinearRegression() 
LR.fit(X_train, y_train)

# Прогнозирование 
y_pred = LR.predict(X_test)

# Оценка модели 
mse = mean_squared_error(y_test, y_pred) 
rmse = mean_squared_error(y_test, y_pred, squared=False) 
mae = mean_absolute_error(y_test, y_pred) 
r2 = r2_score(y_test, y_pred) 
adj_r2 = 1 - (1-r2)*(len(y_test)-1)/(len(y_test)-X_test.shape[1]-1) 
print(f'Mean Squared Error: {mse}') 
print(f'Root Mean Squared Error: {rmse}') 
print(f'Mean Absolute Error: {mae}') 
print(f'R^2: {r2}') 
print(f'Adjusted R^2: {adj_r2}')
Mean Squared Error: 16902445328.964172 
Root Mean Squared Error: 130009.40477120943 
Mean Absolute Error: 102777.23299243717 
R^2: 0.3387269809586828 Adjusted 
R^2: 0.3318098991695476

интерпретируем метрики:

Mean Squared Error (MSE): 16,902,445,328.96
MSE является мерой качества, где меньшее значение MSE указывает на лучшее качество. Это значение довольно высокое, что может указывать на наличие больших ошибок между фактическими и прогнозируемыми значениями.
Root Mean Squared Error (RMSE): 130,009.40
RMSE интерпретируется в тех же единицах измерения, что и исходные данные (в данном случае, цена). Модель ошибается в среднем на 130,009.40 рублей при прогнозировании цены.
Mean Absolute Error (MAE): 102,777.23
MAE представляет собой среднюю абсолютную ошибку между прогнозируемыми и фактическими значениями. Это говорит о том, что модель в среднем ошибается на 102,777.23 единиц.
R^2: 0.3387
R^2 измеряет долю дисперсии зависимой переменной, объясненную моделью. Значение 0.3387 говорит о том, модель объясняет только 33.87% дисперсии в данных. Это довольно низкое значение, что указывает на то, что модель может быть не очень хорошо подобрана или что может быть много нерассмотренных или нерелевантных признаков.
Adjusted R^2: 0.3318
Это корректировка R^2, учитывающая количество признаков в модели. Поскольку оно близко к обычному R^2

В целом, на основе представленных метрик, модель не идеальна и может потребовать доработки. Это может включать добавление новых признаков, преобразование существующих признаков, проверку на наличие выбросов в данных или использование другой модели для прогнозирования.

Настройка модели

Проверяем на наличием выбросов.

Красным выделены значения которые считаются выбросами

#Есть выбросы их надо удалить
for column in ['price', 'Year','Mileage','Power']:
  # если столбец числовой  
  Q1 = data[column].quantile(0.25)  
  Q3 = data[column].quantile(0.75)  IQR = Q3 - Q1
  # Границы выбросов  
  lower_bound = Q1 - 1.5 * IQR  
  upper_bound = Q3 + 1.5 * IQR
  # Отфильтровать выбросы  
  data = data[(data[column] >= lower_bound) & (data[column] <= upper_bound)]

Удаление выбросов не помогло.

Полный код есть на github

Продвинутые возможности SQL: Погружение в конструкцию WITH

vladimirvanalytics — Sat, 23 Sep 2023 19:55:16 GMT

Многие специалисты по базам данных начинают свой путь с изучения основ SQL. Они быстро осваивают базовые запросы, такие как SELECT, INSERT, UPDATE и DELETE. Однако после освоения этих базовых навыков многие останавливаются, полагая, что это достаточно для большинства задач. На самом деле, SQL предлагает гораздо более мощные инструменты, которые могут существенно упростить и оптимизировать вашу работу с данными. Одним из таких инструментов является конструкция WITH, также известная как Common Table Expressions (CTE).

Что такое CTE (Common Table Expressions)?

CTE представляет собой временный результат запроса, который можно использовать в последующем запросе. Это похоже на создание временной таблицы, но CTE существует только во время выполнения запроса.

Преимущества использования CTE:

Допустим у нас есть таблица org_structure, которая представляет собой иерархическую структуру организации. Нам нужно получить полный путь иерархии для каждого сотрудника.

WITH Hierarchy AS (
    -- Базовый случай: верхний уровень иерархии (например, компания)
    SELECT ID, Name, ParentID, 
           CAST(Name AS VARCHAR(255)) AS Path
    FROM org_structure
    WHERE ParentID IS NULL

    UNION ALL

    -- Рекурсивный случай: добавляем каждый следующий уровень иерархии
    SELECT o.ID, o.Name, o.ParentID,
           CAST(h.Path + ' -> ' + o.Name AS VARCHAR(255))
    FROM org_structure o
    JOIN Hierarchy h ON o.ParentID = h.ID
)

SELECT Path AS Hierarchy
FROM Hierarchy
WHERE Name = 'Сотрудник'
ORDER BY Path;

Иерархические структуры данных часто встречаются в реальной жизни, особенно в организационных структурах, деревьях категорий и так далее. Также часто такие задания дают на собеседованиях.

Разведочный анализ данных с использованием библиотеки Pandas

vladimirvanalytics — Sat, 23 Sep 2023 07:21:35 GMT

В прошлой статье собрал данные с сайта о продаже автомобилей, и теперь хочу провести первичный анализ этих данных.

import pandas as pd

# Загружаем данные из CSV
data = pd.read_csv("path_to_file.csv")

2. Осмотр данных

# Первые 5 записей
print(data.head())

# Основная информация о данных
print(data.info())

# Описательная статистика
print(data.desc

3. Проверка пропущенных значений

# Считаем количество пропущенных значений для каждой колонки
print(data.isnull().sum())

4. Визуализация данных

import matplotlib.pyplot as plt
import seaborn as sns
f# График средней цены автомобилей по годам выпуска
avg_price_per_year.plot(kind='bar')
plt.title("Средняя цена автомобилей по годам")
plt.ylabel("Средняя цена")
plt.xlabel("Год выпуска")
plt.show()

Ящик с усами. Ищу выбросы

data.plot(kind='box', subplots=True, layout=(4,4), sharex=False, sharey=False, figsize=(15,18))
plt.show()

Scatter plot

f plt.figure(figsize=(15, 10))
sns.stripplot(data=data, x="Year", y="price")
plt.axhline(y=data['price'].quantile(0.25), color='green', label='Цена ниже рынка')
plt.axhline(y=data['price'].quantile(0.5), color='blue', label='средняя цена по рынку')
plt.axhline(y=data['price'].quantile(0.75),color='red', label='цена выше рынка')
plt.axvline(x='2013', label='Медианный год')
plt.axvline(x='2011', label='25% самых старых автомобилей' )
plt.axvline(x='2016',label='25% самых молодых автомобилей')
plt.legend(loc="upper right")
plt.show()

Эти базовые операции помогут быстро оценить собранные данные, увидеть основные тенденции и определить направления для дальнейшего анализа.

C полным кодом можно знакомиться на github

Парсинг данных с avito.ru: Введение и Первые шаги

vladimirvanalytics — Sat, 23 Sep 2023 06:54:55 GMT

Avito.ru - один из крупнейших рекламных сайтов в России, и извлечение информации с него может быть полезным для многих задач: от изучения рынка до анализа конкурентов.

Основные понятия

Selenium - инструмент для автоматизации браузерных действий, часто используется для тестирования веб-приложений или парсинга данных.
Python - высокоуровневый язык программирования, который из-за своей универсальности и доступности стал стандартом в анализе данных и веб-парсинге.
Базы данных - это структурированные наборы данных, которые могут легко быть доступны, управляемы и обновляемы.

Подготовка к работе
Прежде всего, вам потребуется установить необходимое программное обеспечение:

Убедитесь, что у вас установлен Python. Если нет, его можно скачать здесь.
Установите библиотеку Selenium. Это можно сделать с помощью pip:

pip install selenium

Также рекомендуется установить браузерный драйвер для Selenium, например, для Chrome - chromedriver.

Пример кода
Вот простой пример того, как можно использовать Selenium для открытия браузера и перехода на avito.ru:

from selenium import webdriver

driver = webdriver.Chrome(executable_path='path_to_chromedriver')
driver.get('https://www.avito.ru')

Поиск и взаимодействие с элементами сайта

Мы начинаем с доступа к URL с объявлениями о продаже автомобилей. Затем извлекаем количество объявлений на сайте и определяем количество страниц, которые нужно будет обработать.

Далее, для каждой страницы, мы извлекаем ссылки на все объявления и сохраняем их в csv файл.

Ищу ссылки на все объявления на странице

ads_elements = driver.find_elements(by=By.XPATH, 
                                    value='//a[@data-marker="item-title"]')

Ищу количество объявлений

ads_count = driver.find_element(by=By.XPATH, value="//span[@data-marker='page-title/count']").text.replace(' ','')

by=By.XPATH:

Здесь используется метод поиска элемента по XPath. XPath (XML Path Language) — это язык, который позволяет определить местоположение элемента на веб-странице.

value="//span[@data-marker='page-title/count']":

Это конкретный XPath запрос. Он ищет элемент span с атрибутом data-marker, значение которого равно 'page-title/count'.

.text:

Это свойство возвращает текстовое содержимое найденного элемента. То есть после того как вы нашли нужный элемент на странице.

.replace(' ',''):

Этот метод строки Python заменяет все пробелы в строке на пустую строку, то есть удаляет их. Это может быть полезно, если в текстовом содержимом элемента есть пробелы, которые вы хотите удалить.

В итоге, переменная ads_count будет содержать текстовое значение из элемента span без пробелов.

Зная, что на каждой странице отображается 50 объявлений, рассчитываю общее количество страниц на сайте.

if ads_count % 50 > 0:
    page_count = (ads_count // 50) + 1
else:
    page_count = ads_count // 50

ads_count % 50 определяет остаток от деления количества объявлений на 50.
Если остаток больше 0, это значит, что на последней странице будет менее 50 объявлений, поэтому нужно добавить еще одну страницу ((ads_count // 50) + 1).
В противном случае (если объявлений ровно 50 или кратно 50), общее количество страниц будет равно ads_count // 50.

Теперь, зная page_count, можно определить, сколько раз нужно будет переходить на следующую страницу, чтобы обработать все объявления на сайте.

Пагинация по страницам

for page in range(1, page_count + 1):
    driver.get(f"{url}&p={page}")    
    driver.implicitly_wait(3)    
    ads_elements = driver.find_elements(by=By.XPATH, 
                                        value='//a[@data-marker="item-title"]') 
    
    for ad in ads_elements:
            link = ad.get_attribute("href")        
            #Записываем ссылку на страницу с объявлениями в csv
            with open("info.csv", mode='a', encoding='utf-8-sig') as csv_file:
             writer = csv.writer(csv_file)    
             # Записываем данные    
             writer.writerow((url))

Этот код переходит на следующую страницу сайта. К базовому URL сайта, добавляется параметр p, который указывает на номер страницы. Ищет на странице все объявления, и записывает их в файл csv

Отлично, теперь у нас есть все ссылки на объявления.

Собираем технические характеристики автомобиля

data = []
def open_info_csv():
    # Инициализация драйвера
    with open("info.csv", mode='r', encoding='utf-8-sig') as csv_file:
        reader = csv.reader(csv_file)
        for row in reader:
        data.append(row)
# Вызываем функцию
open_info_csv()

list_of_url = open_info_csv()
for row in list_of_url:
    driver.get(row)
    #ищу название объявления
    title = driver.find_element(By.XPATH, "//h1[@data-marker='item-view/title-info']").text.split(',')[0].strip('"')
    #Цену
    price = driver.find_element(By.XPATH,'//span[@data-marker="item-view/item-price"]').get_attribute('content')
    #Тип продавца
    seller_type = driver.find_element(by=By.XPATH, value='//div[@data-marker="seller-info/label"]').text
    #Адрес
    address = driver.find_element(by=By.XPATH, value="//div[@itemprop='address']/span").text
    
    #cохраняю в файл
    with open("car_info.csv", mode='a', encoding='utf-8-sig') as csv_file:
             writer = csv.writer(csv_file)    
             # Записываем данные    
             writer.writerow((title,price, seller_type,address))
    driver.close()
    driver.quit()

Полный код на код на Boosty

Парсим, анализируем, предсказываем: Выбираем автомобиль

vladimirvanalytics — Sat, 23 Sep 2023 05:05:31 GMT

сгенерировано нейросетью stable diffusion

Предыстория

Родственники жены, рассказали что выбирают автомобиль и как это обычно бывает, на эту роль претендовали несколько конкурентов. Их требованиям отвечали сотни, а для некоторых моделей и тысячи, автомобилей. Решил им помочь отобрать выгодные (цена которых относительно рынка занижена).

Сбор данных.

Данные собирал с одного известного сайта объявлений. Меня интересовали следующие параметры при выборе автомобиля:

Цена (price)
Год выпуска(year)
Пробег
Количество владельцев по ПТС
Мощность двигателя
Тип коробки передач

Реализация.

Написал код, используя Selenium, для автоматического сбора данных с сайта. Данные по автомобилям сохранялись в базу данных SQLite3. Код состоит из двух основных функций parser, worker

Парсинг данных:

Функция parser принимает URL в качестве аргумента и начинает процесс сбора данных.
Открывается URL в браузере через драйвер Selenium.
Браузер пытается найти и взаимодействовать с некоторыми элементами на странице.
Браузер определяет количество объявлений на странице и вычисляет, сколько всего страниц в пагинации.
Затем проходится по каждой странице, извлекает ссылки на объявления и их идентификаторы, после чего добавляет их в базу данных

Функция `worker`

В бесконечном цикле пытается извлекать следующий URL для обработки из базы данных.После получения URL, обновляет его статус на «обрабатывается»
Открывает URL в драйвере Selenium.Проверяет наличие определенных элементов на странице (например, если объявление было снято с публикации).
Если таких элементов нет, пытается сохранить данные с помощью функции save_test_data.
Если возникнет исключение в любой части процесса, статус URL обновляется на «ожидание ошибки», драйвер закрывается и прерывает текущую итерацию.

Анализ полученных данных.

import pandas as pd
import numpy as np

Код знакомый многим кто увлекается данными

Подробно описано в предыдущем посте

Первая попытка. Процентили, Квартили.

Первая попытка выбрать оптимальный автомобиль. Оптимальны автомобиль - у которого год, будет выше чем у 75% автомобилей в выборке, цена будет ниже чем у 25% самых дорогих автомобилей.

График распределения автомобилей по цене и году. Точки это автомобили.

Зеленым цветом выделена область в которой находятся оптимальные автомобили.

Этот подход был отвергнут так как не учитывал другие параметры - пробег, количество владельцев по ПТС

Вторая попытка. Скоринг.

Следующая попытка расчет баллов для каждого автомобиля. Например если цена выше, то бал ниже, пробег выше цена ниже, год старше бал ниже.

Такой подход был получше, но чего-то не хватало.

Третья попытка. Машинное обучение нейросети

изображение сгенерировано нейросетью Stable Diffusion

Подготовка данных:

Использовал Python и библиотеку Pandas для обработки и анализа данных.
Манипуляции с данными, такие как чистка, трансформация, поиск выбросов и масштабирование.

Прогноз

Для предсказания справедливой цены автомобиля использовал нейронные сети, обучил различные модели машинного обучения, начиная с простой множественной регрессии и заканчивая сложными методами ансамблирования, такими как стекинг. Пробовал различные алгоритмы бустинга, включая XGBoost, AdaBoost, GBM и LightGBM.

В целом, результаты говорят о том, что модель дает слабые прогнозы на новых данных.

И как я не пытался улучшить данные для модели, удалить выбросы, "поиграть" с настройками сети. Результат был плюс, минус такой же - 60000 - 80000 разница между фактической ценой и предсказанной.

Подробно об этом написано здесь

Четвертая попытка. Возврат к скорингу.

Для определения оптимального автомобиля разработал систему скоринга. Эта система учитывает разницу в цене, пробеге и количестве владельцев автомобиля. Каждому критерию был присвоен вес, и на основе этой информации для каждого автомобиля был рассчитан общий балл. Автомобиль с наивысшим баллом считается наиболее оптимальным.

Определение весов для каждого критерия:

Например, разница в цене может иметь больший вес, чем разница в пробеге, так как цена может быть более важным фактором для покупателя.

Вычисление баллов для каждого автомобиля:

AveragePriceModelDiff: Положительная разница (если средняя цена модели выше, чем цена конкретного автомобиля) будет добавлять баллы, так как это может указывать на более выгодное предложение.
average_mileage_model_year_diff: Отрицательная разница (если пробег автомобиля выше среднего по модели и году) будет убавлять баллы.
average_pts_diff: количество владельцев автомобиля, меньшее значение PTS будет предпочтительнее, так как автомобиль с меньшим количеством владельцев может быть в лучшем состоянии.

Суммирование баллов для каждого автомобиля:

Веса из пункта 1 умножались на разницы каждого критерия на его вес, а затем складывал все вместе, чтобы получить общий балл для каждого автомобиля.

Выбор автомобиля с наивысшим баллом:

Автомобиль с наивысшим баллом будет считаться наиболее оптимальным.

Такой подход оказался быстрым и эффективным.

Вишенка на торте

Ну и на последок, сделал группу в телеграм, где бот присылает ссылки на автомобиль с расчетом показателей.

В заключении хочется отметить для меня это было уникальным опытом, который стал для меня первым глубоким погружением в область данных и машинного обучения. Этот проект стал своеобразным кульминационным моментом, объединив в себе все мои навыки и знания: от программирования на Python и работы с библиотекой pandas до парсинга веб-сайтов и сохранения данных в базу данных SQLite3. Это был настоящий вызов и большое удовольствие одновременно!