Data-инженер хранилищ данных
Требуемый опыт работы: 1–3 года
МОСКВА ЗАДАЕТ ТРЕНДЫ! Наши возможности позволяют изучать желания и поведение пассажиров и водителей транспорта, создавать и улучшать городские цифровые сервисы. Вместе с коллегами делаем московский транспорт безопаснее, современнее и комфортнее для жителей и гостей столицы.
ИННОВАЦИОННЫЙ ЦЕНТР - УНИКАЛЬНОЕ IT-ПРОСТРАНСТВО, внутри большой госкомпании.
Мы создали и развиваем Единое хранилище данных транспортного комплекса Москвы. Данные забираем от более чем 40 источников, среди которых есть и пакетная, и потоковая передача данных. Хранилище Данных выступает базой для всех информационно-аналитических продуктов нашей организации. В их числе - оказание поддержки в принятии управленческих решений Правительству Москвы на основе Big Data и другие продукты, направленные на улучшение транспортной инфраструктуры и города в целом.
ЧТО ЕСТЬ: Apache Spark, Apache Hive, Airflow, Linux, Git, Bash, ELK, Vertica, ClickHouse, DB2. Пишем сами систему мониторинга качества данных.
НАША КОМАНДА: Команда хранилища данных состоит из инженеров данных, аналитиков данных, администратора платформы данных.
Для поддержки работоспособности и дальнейшего развития нашей платформы данных нам нужен Data-инженер, который закроет следующие ЗАДАЧИ:
- Интеграция Хранилища Данных с различными источниками (FTP, API, сайты) с помощью Python;
- Преобразование данных из различных форматов (xml, json) к табличному виду с помощью Python;
- Разработка витрин данных с использованием SQL, Python, PySpark;
- Разработка и доработка batch и real-time процессов загрузки данных в различные слои хранилища данных в Hive, Vertica, ClickHouse, DB2;
- Развитие системы мониторинга качества данных;
- Совершенствование и разработка новых внутренних процессов команды;
- Декомпозиция и оценка трудозатрат по своим задачам; Code-review;
- Поддержка в актуальном состоянии базы знаний и технической документации Хранилища Данных.
- Законченное высшее образование;
- Понимание теории и практики построения Хранилищ Данных в роли Data-инженера;
- Уверенное владение SQL, опыт написания сложных запросов с подзапросами и оконными функциями и регулярными выражениями, навыки оптимизации запросов;
- Навыки программирования, умение читать и понимать код на Python;
- Понимание принципов работы Git-систем;
- Понимание принципов работы систем оркестрации;
- Знание основных команд Linux на уровне пользователя;
- Знание английского языка для чтения технической литературы;
- Требуемый опыт работы 1–3 года;
- Интерес к работе с данными, желание погружаться в разные предметные области;
- Умение работать в команде и готовность помогать коллегам;
- Заинтересованность в личном развитии и развитии города.
Будет плюсом, если у тебя есть :
- Опыт работы со стеком технологий Hadoop, понимание парадигмы map-reduce и алгоритмов работы Spark;
- Опыт работы с БД Vertica, ClickHouse, DB2, Hive;
- Знание планировщиков процессов (AirFlow);
- Опыт работы в крупных проектах и умение решать архитектурные вопросы Хранилищ Данных.
- Интересную работу в масштабном проекте, помощь и поддержку;
- Отличную команду, молодую и активную, увлеченную тем, чем занимается;
- Финансовые условия обсуждаем индивидуально в зависимости от опыта кандидата;
- Отпуск 42 дня, страхование жизни, скидки от компаний-партнеров;
Присылайте резюме нашему HR Виолетте на почту belyakova-vv@mosmetro.ru или в телеграм @ViolettaBelyakova