Backend
October 6

ID 2918. ML developer

Уровень: middle+, senior-, senior, senior+

Ставка: рассмотрим ваши ставки (*указывайте в форме ставку с налогами)

Локация: любая

Уровень английского: B2+

Требования:

Обязательные навыки:

  • 4+ лет опыта в ML-инженерии с акцентом на деплой и промышленную эксплуатацию моделей.
  • Уверенное владение Python (обязательно), знание Java будет преимуществом.
  • Практический опыт работы с LLM, GenAI и распределенным обслуживанием моделей.
  • Глубокое понимание мультиоблачных сред (AWS, GCP, Azure) и гибридных инфраструктур.
  • Опыт с контейнеризацией (Docker) и оркестрацией (Kubernetes) для ML-задач.
  • Знание методов оптимизации инференса моделей, GPU-ускорения и параллельных вычислений.
  • Работа с инструментами: TensorFlow Serving, TorchServe, Triton Inference Server, ONNX Runtime или аналогичными.
  • Опыт проектирования высоконагруженных систем, REST/gRPC API для обслуживания моделей, стратегий масштабирования.
  • Понимание концепций MLOps: CI/CD, мониторинг, детекция дрифта, процессы переобучения.

Желательные навыки:

  • Знание KubeFlow, MLflow, SageMaker, Vertex AI, Azure ML.
  • Опыт с квантованием, прунингом и другими методами оптимизации моделей.
  • Понимание вопросов безопасности данных, приватности и соответствия регуляторным требованиям.
  • Работа в agile-командах и кросс-функциональных проектах.

Краткое описание проекта:

Мы ищем высококвалифицированного Machine Learning Engineer с более чем 4-летним опытом, специализирующегося на развертывании ML-моделей в продакшн-средах в мультиоблачных экосистемах (AWS, GCP, Azure) и on-premise-инфраструктуре. Идеальный кандидат должен обладать экспертизой в высоконагруженных системах, работе с многопроцессорными GPU-средами, а также практическим опытом работы с Large Language Models (LLM) и решениями на основе Generative AI (GenAI).
Роль предполагает управление полным жизненным циклом моделей — от разработки до масштабируемого развертывания — с фокусом на оптимизацию производительности, надежность и автоматизацию в распределенных системах.

Краткое описание задач:

  • Проектирование, разработка и деплой ML-моделей в продакшн (AWS, GCP, Azure, on-prem).
  • Создание масштабируемых ML-пайплайнов для распределенного обучения и инференса на multi-GPU.
  • Реализация стратегий деплоя с использованием Docker, Kubernetes, Terraform и CI/CD-процессов.
  • Оптимизация обслуживания LLM и GenAI-моделей для минимизации задержек и обеспечения высокой доступности.
  • Коллаборация с Data Scientists, MLOps и инженерами для операционализации моделей.
  • Мониторинг, обеспечение наблюдаемости и тонкая настройка производительности моделей в масштабе.
  • Внедрение лучших практик версионирования, воспроизводимости и соответствия требованиям (безопасность, управление данными).
  • Участие в архитектурных решениях, оценке инструментов и улучшении процессов деплоя ML-моделей.

Requirements:

Required Qualifications:

  • 4+ years of experience in ML engineering, with a focus on model deployment and
    productionization.
  • Proficient in Python (mandatory); experience with Java is a plus.
  • Proven experience with LLMs, GenAI models, and distributed model serving.
  • Deep understanding of multi-cloud environments (AWS, GCP, Azure) and hybrid
    deployments.
  • Experience with containerization (Docker) and orchestration (Kubernetes) for ML
    workloads.
  • Strong knowledge of model inference optimization, GPU acceleration, and parallel
    processing.
  • Familiarity with tools like TensorFlow Serving, TorchServe, Triton Inference Server, ONNX Runtime, or similar.
  • Experience in high-throughput system design, REST/gRPC APIs for model serving, and scaling strategies.
  • Solid grasp of MLOps concepts including CI/CD, monitoring, drift detection, and
    retraining workflows.

Preferred Skills:

  • Knowledge of KubeFlow, MLflow, SageMaker, Vertex AI, or Azure ML.
  • Exposure to quantization, pruning, and other model optimization techniques.
  • Understanding of data security, privacy, and compliance in regulated environments.
  • Experience working in agile and cross-functional teams.

Brief description of the project:

We are seeking a highly skilled Machine Learning Engineer with over 10 years of experience, specializing in deploying ML models in production environments across multi-cloud (AWS, GCP, Azure) and on-premise infrastructure. The ideal candidate will have strong expertise in high-throughput systems, multi-GPU environments, and hands-on experience with Large Language Models (LLMs) and Generative AI (GenAI) solutions.
This role focuses on end-to-end model lifecycle management, from development to scalable deployment, with a key emphasis on performance optimization, reliability, and automation in complex distributed systems.

Brief description of tasks:

  • Design, develop, and deploy ML models into production across AWS, GCP, Azure, and on-prem environments.
  • Build scalable, high-throughput ML pipelines supporting multi-GPU and distributed training/inference.
  • Implement robust deployment strategies using Docker, Kubernetes, Terraform, and CI/CD workflows.
  • Optimize model serving for LLMs and Generative AI applications, ensuring low latency and high availability.
  • Collaborate with data scientists, MLOps, and platform engineering teams to
    operationalize models.
  • Ensure monitoring, observability, and performance tuning of deployed models at scale.
  • Drive best practices in model versioning, reproducibility, and compliance (including security and data governance).
  • Contribute to architecture decisions, tool evaluation, and process improvements for ML deployment and serving

Тип работ: outstaff / fulltime

Продолжительность работ: 12 месяцев

Допустимый часовой пояс (GMT): UTC+7 (+- 3 часа)

Этапы интервью: 1

Для рассмотрения специалиста необходимо заполнить форму

Контакты:

https://t.me/annaromannaa

a.brazhnikova@agima.ru

*Для размещения информации о запросах и доступных IT-специалистах присоединяйтесь к чату Аутстаффинг агентств