June 17

Анализ рынка ДЕ в 2025 году

Превью

Введение

В последнее время мои ученики начали часто задавать вопросы про найм.

- Вот раньше было легко вкатываться в DE. А сейчас как?
- А я сейчас вижу в тг людей кто не может найти работу в DE
- Про фронтенд и бэкенд слышал, а про DE совсем ничего. Это направление точно актуально?

Поэтому я решил написать статью чтобы сразу ответить на все вопросы.

В сегодняшней статье разберем:

  • Простым языком про DE
  • Тренды рынка и куда он движется
  • Найм в целом и зп
  • Грейды и типы собесов
  • Актуальный стек

Кто я

Я - Алексей Богатырев. В IT 5 лет. Работал в топ банках по типу Райффайзенбанк и Альфа банк.

Сейчас работаю техлидом в Денум. Занимаюсь менторством и вкатываю людей в DE. 

В тг канале более подробно рассказал про свой путь

Кто такой этот ваш DE

Представь, как ты заходишь в Яндекс.Музыку, включаешь свою Волну

Яндекс.Музыка. Моя волна.

И тут начинает играть просто неебический трек, но ты слышишь его впервые в жизни.

Он словно идеально подобран под тебя... Это нейронка Яндекса подобрала его исходя из сотни тысяч пользователей с похожими на твои музыкальными вкусами

Так вот.

Data Engineer (DE) - это тот, кто все эти данные с пользователей собрал и передал для тренировки нейронки

Рынок DE

Данные - новая нефть.

В этом уже никто не сомневается. Это конечно прикольно, но куда вся эта движуха идет? И куда важнее что все это значит для нас.

Бизнес любит собирать инфу

Вот кайфует он от этого. Хочет знать что ты ищешь в инете, что покупаешь, о чем пиздишь с друзьями. И вообще а чо бы тебе такого впихнуть?

Вот и собираются аналитики, графики смотрят и много думают. А чтобы им было над чем думать - нужны DE.

Они и данные соберут и гадость всякую оттуда выкинут и красиво подадут. Нужные ребята.

Насколько бизнес любит собирать инфу

А вот если данные собираются, все с кайфом но чет долго. Что делать? Раньше бизнес любил залить деньгами чтобы снова все было классно. Но сейчас уже не получается, а делать что-то с этим надо.

И бизнес стал очень любить качество доставки данных. Вот без лишнего вливания бабла чтобы все работало как надо.

А тут подключился бизнес поменьше. Данных у них поменьше, но они также хотят урвать свой кусок. Да и инфра для данных перестала стоить как крыло от боинга. Теперь им тоже нужны DE.

Из исследования «Мониторинг цифровой трансформации бизнеса» Института статистических исследований и экономики знаний (ИСИЭЗ) НИУ ВШЭ:

Треть организаций уже работающих с биг датой начали делать это после ковида
Более 50% компаний пользуются биг датой
65% организаций отметили что у них отлаженен процесс работы с большими данными

Внедрение нейронок

Сейчас они абсолютно везде. Умные ленты, рекомендации, подборки...

Бизнес хочет нейронки в своих приложениях, а вкатуны повально хотят писать нейронки, но ДАЖЕ НЕ ЗНАЮТ, что нейронки тренируются на том что собрал DE.

Импортозамещение и рост данных

В 22-ом году западный бизнес сказал пока и пошло импортозамещение. Вот подъехала еще работа для DE. Ну и самих вакансий стало больше.

Из исследования Notamedia:

Российский рынок разработки ПО вырос на 12,5% до 1890 млрд рублей.
В ближайшие годы ожидается ускорение темпов роста на 13-15%
По оценкам Минцифры, уровень внедрения российского общесистемного и прикладного ПО в 2022 г. составлял 50% — оценка также была обнародована в октябре 2023 г. Планируется, что в 2023 г. он увеличится до 54%, в 2024 г. — до 58%, в 2025 г. — до 63%, а к 2030 г. достигнет 71%.

Сами данные пухнут, их все больше. Больше и новых компаний, а они тоже хотят вступить в гонку за данными. DE это очень кстати.

Рост объема данных

И что получается?

ЗП растут, вакансий становится больше. DE всем нужны и будут нужны еще очень долго.

Ну вот нужны спецы, которые будут данные собирать и что-то с ними делать.

Без таких людей процессы просто встанут.

Единственное что с улицы теперь не залететь. Нужно немного больше постараться, но если следовать простым правилам, то залететь - изи. 

В тг канале более подробно рассказал про то насколько DE востребован

Поломанный найм

Я и мои менти проходим много собесов. Плюс сам собеседую людей.

Компании не понимают как собеседовать людей.

Чаще всего - прохождение собесов это рутина. На той стороне есть опросник или же просто погуглили вопросы по каждой теме.

Быть чуть умнее большинства гарантирует получение оффера.

Лайфкодинг

На собесе тебя просят расшарить экран или дают ссылку где ты будешь от 1 до 4 задачек в реал тайме по sql и(или) python. Задачки не сложные, обычно подготовки на leedcode достаточно.

Ниже реальные кейсы лайфкодинга на собесах

По Python.

1) Необходимо в массиве найти повторяющиеся значения, если такие найдены, вернуть-True, иначе-False

Input: nums = [1,2,3,1]
Output: true

Input: nums = [1,2,3,4]
Output: false

2) Имеется 2 массива, один содержит название, второй значения необходимо получить значение score_2, 
если score_2 - нет, то значение будет 0.23241

Input:
names = ['score_1', 'score_2', 'score_3']
values = [0.2323, 0.12131, 1.2241]
Output: 0.12131

Input:
names = ['score_1', 'score_3', 'score_4']
values = [0.2323, 0.12131, 1.2241]
Output: 0.23241

По SQL

Напишите SQL-запрос над таблицей user_activity_log, который вернёт три поля: 
client_id — идентификатор клиента;
month — месяц данных (должен иметь тип date);
visit_to_login_events — количество событий типа login, следующих сразу, 
без каких-либо промежуточных событий, после события visit за месяц.

Необходимо вычислить метрику в витрине  
visit_to_login_events - количество событий типа login после события visit за месяц по каждому клиенту. 
Промежуток времени между событиями не ограничен.

Таблица user_activity_log

client_id   hitdatetime action
123         2023-11-23:00:00:00  login
123         2023-11-23:00:01:11  visit
123         2023-11-23  visit
125         2023-11-23  visit
123         2023-11-24  visit
125         2023-11-23  login

Алгоритмы

Подтип лайфкодинга. Спрашивают про сложность кода.

Вот ты решаешь задачку по лайфкодингу, у тебя есть решение:

nums = [4, 5, 1, 2, 0, 4]
# → 5

from collections import Counter

def first_unique(nums):
    freq = Counter(nums)  # O(n)
    for num in nums:      # O(n)
        if freq[num] == 1:
            return num
    return None

И тут тебя спрашивают про сложность по времени и памяти.

В данном случае будет линейная - 0(n).

Но на собесах также часто попадаются:

  • O(1) -Константная
  • O(log n) Логарифмическая
  • O(n^2) Квадратичная

Может будет что-то поэкзотичнее

И да - они тебе никогда не пригодятся на работе

Но иногда на душных собесах они попадаются. Тебе о них говорят заранее, если спросишь у hr.

Архитектурный этап

Отдельный душный этап. Тебя просят спроектировать пайплайн, архитектуру DWH или как бы ты реализовал стриминг. Вкидывают минимальные данные, чо надо - а дальше крутись как знаешь.

Я бы не советовал на первый парах туда идти, но если все таки пойдешь то вот пара советов:

  • Задавай вопросы (от тебя этого ждут)
  • Описывай все поэтапно
  • Старайся не терять контекст
  • Объясняй выбор инструментов
По прохождение собесов понятно, а чо по рынку?

Как сейчас дела на рынке

Из нового, бустанулась веселая вещь - сервисы по отсеиванию резюме. Такие сервисы и раньше были, но внедрение нейронок все изменило. Теперь сначала твое резюме смотрит не человек, а сервис с нейронкой на борту.

Сайт хантфлоу

И появилась нехилая вероятность того что твое резюме просто не посмотрит живой человек. Оно просто до него не дойдет, его отсеет нейронка.

Т.е. начинает решать навык написания резюме и умение продавать себя. Идея накрутки опыта становится необходимостью.

По грейдам и зп:

Сначала про количество вакансий и средние зп на агрегаторах и прочее. Поглядим на стату в гетматч, ХХ.ру и то что собрали независимые ребята.

В хх.ру общее количество вакансий около 1500, но указаны зп только у 300. Средняя зп 250-300к.

hh.ru

В getmatch меньше выборка но по зп более понятно. Можно выбрать вилку и глянуть вакансии. Прикольно и удобно.

getmatch

Тут еще получше, но наверно лучше по DE и не будет. Ребята собрались и организовали более независимую стату.

Независимая статистика

Но это все оффициальная стата, которая не пойми как собирается.

Поэтому каждому надо собрать свою статистику по вакансиям.

Вот моя статистика

Джун. По зп - залупа за воротник. Даже не смотри. Идти на джуна вообще не имеет смысла. 

Мидл. По зп - 300-370к. Легко можно залететь на первую работу, если правильно подойти к обучению.

Сеньор. По зп - 400к+. Потолок очень размыт, но где-то 500-600к в топ вакансиях. Лучше пытаться идти сюда после того как уже устроился на мидла. Для первой работы можешь выгореть или просто не вывезти.

Стоит понимать что грейды это вообще условная штука. Могут на Мидла дать 400к+, а могут за Сеньор дать 300к. 

По типам собесов:

Вопрос-ответ
Это высокий приоритет по поиску работы, к нему легче готовится, быстрее можно получить оффер. Зп 300-350к
Таких собесов больше всего - 80%.

Многоэтапные собесы.
Приоритет - кал. Ты сможешь не пройти 1 этап и тебя скипнут, а потратишь много времени. По некоторым таким собесам процесс получение оффера может затянуться до 6 месяцев.
Из сомнительных плюсов - ЗП 400к+ (но на деле довольно редко) и я очень советую заранее подумать чем влипать в такие собесы.
Таких собесов - 10%.

Как пример, в Авито можно пройти и залутать оффер в 450-500к. Но часто они на этапе оффера занижают планку до средней.

Пиздеж по опыту.
Чел смотрит твое резюме и гоняет по кейсам, стеку, направлению домена. Может уйти вообще в изотерику или же прийти к холивару.
Приоритет средний. Непонятно как готовится, но потенциально может быть интересное общение.
Нужен опыт реальной работы - без него будет очень тяжко. Гарантия получения собеса средняя. Зп 300-350к, иногда бывают можно выбить 400к+. 
Таких собесов - 7%.

Доеб по технологии.
Берется 1 технология (чаще всего самая важная для проекта) и по ней копают насколько ты хорошо знаешь. Душная херня, вообще не интересно. 
Приоритет низкий. Подготовиться можно но отнимаешь слишком много времени. 
Зп 300-350к, иногда бывают можно выбить 400к+
Таких собесов - 3%.

Поверь - оно тебе не надо.

Еще раз - ты можешь идеально пройти собес, но тебя не возьмут. Потому что ты чем-то не понравился.

Это нормально, просто иди на след собес. Не надо грызть себя за это. 

Актуальный стек для DE

Всегда роляют общие принципы а не конкретные технологии.

Даже если смотреть на технологии - стек не особо меняется.
Опен сорс прикольно и удобно.

Новое есть, но бизнесу на них обычно похер. Он просто не хочет рисковать, пробовать.

Но все-таки с 22-года есть изменения.

Напомню про минималку

Зарисовка минимального стека ДЕ

В тг канале более подробно рассказал про минималку
Еще и заснял видео на своем ютуб канале

А теперь про сами изменения на рынке.

Clickhouse чаще начали писать в вакансиях, чаще стали юзать. Он и до этого был хорош, бизнес его любил, еще и условно бесплатный.
Прям мастхев.

С GreenPlum тоже самое что и с Clickhouse, но есть проблемы опен сорсовости. Решается накаткой бесплатной версии. Бизнес тоже его любит.

Облака встречаются редко. Западные рабята и их инфра ушла (aws, azure), но появились рос. аналоги(vk, yandex). С ними пока идет туго. Кто
знает что будет дальше но пока бизнесу прикольнее с s3 minio и т.д.

На классике стека вышли новые версии с прикольными фичами. 
Airflow, Kafka, Clickhouse, S3 minio, Greenplum и т.д.

В заключении

Выходит так.
DE нужны. Очень нужны. И будут нужны дальше.

Также можете подписаться на мой канал. Там много чего будет выходить про стек DE и про тенденции рынка.

Сейчас готовлю мега материал по моему эксперименту с резюме и что из этого вышло.
Будет весело)