Исследования
June 7, 2022

Миграция

Все области аналитики так или иначе связаны и HR аналитика не исключение. Мои преподаватели учили меня, что все значимые открытия в науке лежат на стыке областей и дисциплин. Полностью разделяю этот подход, поэтому утверждаю, что мы не можем заниматься анализом данных в HR игнорируя экономическую, политическую, социальную и прочие конъюнктуры. Сегодня мы сблизимся с демографией, в этой области в России, как с точки зрения самой науки, так и аналитики я рекомендую следить за работами Алексея Ракши.

Влияние демографии на HR-аналитику трудно переоценить, так как это напрямую отражает доступные трудовые ресурсы, можете посмотреть относительно свежее видео на эту тему у Эдуарда Бабушкина [1].

Довольно-таки давно, как выходца из региона, меня интересует аналитика миграционных потоков внутри страны, но в этом посте я хочу посмотреть на иммиграцию и эмиграцию. Этот анализ я провел на данных Всемирного банка и особенно интересно его будет повторить, когда появятся данные за 2022 год.

В качестве метрики, которую будем анализировать, выбран коэффициент чистой миграции [2].

Коэффициент чистой миграции = (число иммигрантов – число эмигрантов) / средняя популяция за год * 1000

Суть метрики в том, что когда оборот иммигрантов и эмигрантов на тысячу человек в стране равный, то метрика будет стремиться к нулю. Если метрика выше нуля, то иммигрантов больше, чем эмигрантов, если ниже нуля, то наоборот.

Анализ проведен на данных с чистой миграциейпо странам за каждые пять лет [3] и численностью населения [4]. Поскольку данные по чистой миграции представлены с шагом пять лет, то и численность для метрики я усреднял между первым и последним годом каждые пять лет. По этой причине (и не только, стоит почитать допущения про данные) вы можете встретить несколько иные расчёты в интернете, но как говорит Екатерина Шульман метрика важна не статикой, а динамикой. То есть в первую очередь мы хотим посмотреть, как показатель будет меняться с течением времени и иметь возможность сравнить разные страны.

Проблема, с которой мы здесь сталкиваемся – это обилие стран, по которым нам доступны данные, поэтому мы посмотрим в двух разрезах по географическому и экономическому сходству.

Синяя линия на графике – это Россия, остальные страны представлены тонкими серыми линиями.

Из этих графиков мы видим, что с 2007 по 2017 год метрика снижается.

1. По странам Европы и Центральной Азии Россия занимает приблизительно среднее положение

2. Страны с доходом выше среднего в основном ниже по коэффициенту чистой миграции, чем Россия (то есть в них уровень эмиграции превышает уровень иммиграции).

Возникает желание посмотреть, какие странны более близки друг к другу, для этого можно использовать кластеризацию, так как график с множеством линий и подписями для стран будет банально не читабельным.

Существуют разные виды кластеризаций, в данном случае была использована иерархическая кластеризация по двум переменным - чистой миграции (не путать с коэффициентом чистой миграции, в данном случае это просто иммигранты минус эмигранты) и количеству населения. Близкие по этим двум параметрам страны должны собраться в один кластер. Исчерпывающее описание кластеризации и как её делать в R можно прочитать тут [5]

По крупному, на графиках выделены три кластера (подсвечено цветом) по наибольшему сходству. Кроме того, видно, что внутри эти кластеры можно ещё дробить на меньшие, но для нашего анализа мы ограничимся этим уровнем.

У читателя, который незнаком с древовидной схемой (дендрограммой) может возникнуть вопрос как я это вижу? Очень просто, график напоминает дерево, слева всё исходит из одного общего кластера, затем сколько раз дерево вьётся на новые ветки, столько кластеров можно выделить, в конечном итоге каждый лист на дереве (в нашем случае страна) это тоже отдельные кластеры. Нам только остаётся принять решение, на каком уровне мы "подрезаем" это дерево, я выбрал на уровне 3 веток (кластеров).

Среди стран Европы и Центральной Азии в 2017 году Россия была ближе всего к Турции, Великобритании и Германии

Опишем эти кластеры по популяции и чистой миграции.

1. Желтый кластер.

Средняя популяция = 47 989 021 ; средняя чистая миграция = 164 343

2. Синий кластер

Средняя популяция = 6 330 771; средняя чистая миграция = 14 198

3. Сиреневый кластер

Средняя популяция = 92 316 922 ; средняя чистая миграция = 1 588 563

По странам с доходом выше среднего Россия ближе всего к Колумбии, Турции, Южной Африке и Перу.

1. Желтый кластер (один Китай)

Средняя популяция = 1 380 000 000; средняя чистая миграция = -1 741 996

2. Синий кластер

Средняя популяция = 16 730 773 ; средняя чистая миграция = - 16 085

3. Сиреневый кластер

Средняя популяция = 71 236 614; средняя чистая миграция = 915 648

Вывод:

Есть немало вопросов к данным, в некоторых местах они выглядят как откровенные выбросы, также мы не знаем за счёт чего снижается коэффициент чистой миграции в России. На это снижение может влиять как уменьшение притока, так и увеличение оттока, хотя, если проводить полную аналитику, как и было сказано вначале, с учётом экономики, социологии и политики, то ответ напрашивается сам собой.

Именно по этим причинам будет интересно провести этот анализ заново, когда будут доступны данные за 2022 год и сравнить результат.

Ссылки:

1. https://www.youtube.com/watch?v=UMmVWFjbe2w

2. https://en.wikipedia.org/wiki/Net_migration_rate

3. https://data.worldbank.org/indicator/SM.POP.NETM

4. https://data.worldbank.org/indicator/SP.POP.TOTL

5. Kassambara A. Practical guide to cluster analysis in R