June 24, 2023

Анализ HR вакансий. Часть 1. Разворачиваем базу данных

У всем известного карьерного сайта hh.ru [1] есть свой API [2], что позволяет обращаться к данным разными инструментами. К сожалению, большая часть данных через API требует оплаты, но есть исключения - активные вакансии можно собирать бесплатно, достаточно завести приложение. Мы займемся сбором HR вакансий в этой серии материалов, кульминацией станет построение дашборда.

Первый вопрос, который возникает – где хранить данные о вакансиях? Существуют разные варианты, но мы хотим автоматизировать процесс, поэтому будем складывать вакансии в базу данных. Я выбрал бесплатную СУБД PostgreSQL [3]. Если у вас есть свой сервер, то базу данных стоит развернуть на нём. Довольно дешевые варианты аренды на территории РФ есть у хостинга RU VDS [4], я сам пользуюсь им. Если вам не требуется бесперебойная работа сервиса, то вполне можно разместить БД на своем собственном компьютере. Тем более для новичков я рекомендую именно этот вариант.

Скачиваем последнюю версию PostrgeSQL [5] для своей операционной системы. Мой пример для Windows.

Запускаем инсталлятор и переходим к установке БД. Вы можете оставить все настройки по умолчанию и нажимать везде Next >.

Дойдя до вкладки Password вам нужно придумать и сохранить пароль для доступа к базе. Это очень важно, далее он понадобится для работы!

В финале устанавливаем драйверы JDBC и ODBC, которые пригодятся для обращения к БД, к примеру, даже из Excel.

В качестве визуально интерфейса для работы с БД я предпочитаю DBeaver – бесплатный менеджер баз данных, который вы можете скачать на официальном сайте [6].

Устанавливаем DBeaver. Все настройки также можно оставить по умолчанию.

Запускаем DBeaver и приступаем к созданию подключения PostgreSQL.

Введите ваш пароль от базы, остальное вы можете не изменять. Нажмите Test connection, в первый раз вас могут попросить скачать все необходимые драйверы, сделайте это обязательно.

Успешный тест выглядит вот так. После чего можно нажать кнопку Finish.

Наше подключение к PostgreSQL создано и теперь его видно в Навигаторе.

Вместе с подключением создалась база postgres мы можем использовать её или создать свою.

Я создаю базу с названием своего канала и выбираю template0 в качестве шаблона БД.

Создав свою базу, вы можете не увидеть её в Навигаторе, для этого нужно заставить DBeaver показывать все БД в настройках подключения.

Наша база h0h1_about_hr_analytics готова. В следующей статье мы начнем знакомиться с API hh.ru и заведем свое приложение.

Ссылки

  1. https://hh.ru/
  2. https://dev.hh.ru/
  3. https://www.postgresql.org
  4. https://ruvds.com/ru-rub
  5. https://www.enterprisedb.com/downloads/postgres-postgresql-downloads
  6. https://dbeaver.io/download/