Анализ HR вакансий. Часть 1. Разворачиваем базу данных
У всем известного карьерного сайта hh.ru [1] есть свой API [2], что позволяет обращаться к данным разными инструментами. К сожалению, большая часть данных через API требует оплаты, но есть исключения - активные вакансии можно собирать бесплатно, достаточно завести приложение. Мы займемся сбором HR вакансий в этой серии материалов, кульминацией станет построение дашборда.
Первый вопрос, который возникает – где хранить данные о вакансиях? Существуют разные варианты, но мы хотим автоматизировать процесс, поэтому будем складывать вакансии в базу данных. Я выбрал бесплатную СУБД PostgreSQL [3]. Если у вас есть свой сервер, то базу данных стоит развернуть на нём. Довольно дешевые варианты аренды на территории РФ есть у хостинга RU VDS [4], я сам пользуюсь им. Если вам не требуется бесперебойная работа сервиса, то вполне можно разместить БД на своем собственном компьютере. Тем более для новичков я рекомендую именно этот вариант.
Скачиваем последнюю версию PostrgeSQL [5] для своей операционной системы. Мой пример для Windows.
Запускаем инсталлятор и переходим к установке БД. Вы можете оставить все настройки по умолчанию и нажимать везде Next >.
Дойдя до вкладки Password вам нужно придумать и сохранить пароль для доступа к базе. Это очень важно, далее он понадобится для работы!
В финале устанавливаем драйверы JDBC и ODBC, которые пригодятся для обращения к БД, к примеру, даже из Excel.
В качестве визуально интерфейса для работы с БД я предпочитаю DBeaver – бесплатный менеджер баз данных, который вы можете скачать на официальном сайте [6].
Устанавливаем DBeaver. Все настройки также можно оставить по умолчанию.
Запускаем DBeaver и приступаем к созданию подключения PostgreSQL.
Введите ваш пароль от базы, остальное вы можете не изменять. Нажмите Test connection, в первый раз вас могут попросить скачать все необходимые драйверы, сделайте это обязательно.
Успешный тест выглядит вот так. После чего можно нажать кнопку Finish.
Наше подключение к PostgreSQL создано и теперь его видно в Навигаторе.
Вместе с подключением создалась база postgres
мы можем использовать её или создать свою.
Я создаю базу с названием своего канала и выбираю template0 в качестве шаблона БД.
Создав свою базу, вы можете не увидеть её в Навигаторе, для этого нужно заставить DBeaver показывать все БД в настройках подключения.
Наша база h0h1_about_hr_analytics
готова. В следующей статье мы начнем знакомиться с API hh.ru и заведем свое приложение.