ID 2918. ML developer
Уровень: middle+, senior-, senior, senior+
Ставка: рассмотрим ваши ставки (*указывайте в форме ставку с налогами)
Требования:
- 4+ лет опыта в ML-инженерии с акцентом на деплой и промышленную эксплуатацию моделей.
- Уверенное владение Python (обязательно), знание Java будет преимуществом.
- Практический опыт работы с LLM, GenAI и распределенным обслуживанием моделей.
- Глубокое понимание мультиоблачных сред (AWS, GCP, Azure) и гибридных инфраструктур.
- Опыт с контейнеризацией (Docker) и оркестрацией (Kubernetes) для ML-задач.
- Знание методов оптимизации инференса моделей, GPU-ускорения и параллельных вычислений.
- Работа с инструментами: TensorFlow Serving, TorchServe, Triton Inference Server, ONNX Runtime или аналогичными.
- Опыт проектирования высоконагруженных систем, REST/gRPC API для обслуживания моделей, стратегий масштабирования.
- Понимание концепций MLOps: CI/CD, мониторинг, детекция дрифта, процессы переобучения.
- Знание KubeFlow, MLflow, SageMaker, Vertex AI, Azure ML.
- Опыт с квантованием, прунингом и другими методами оптимизации моделей.
- Понимание вопросов безопасности данных, приватности и соответствия регуляторным требованиям.
- Работа в agile-командах и кросс-функциональных проектах.
Краткое описание проекта:
Мы ищем высококвалифицированного Machine Learning Engineer с более чем 4-летним опытом, специализирующегося на развертывании ML-моделей в продакшн-средах в мультиоблачных экосистемах (AWS, GCP, Azure) и on-premise-инфраструктуре. Идеальный кандидат должен обладать экспертизой в высоконагруженных системах, работе с многопроцессорными GPU-средами, а также практическим опытом работы с Large Language Models (LLM) и решениями на основе Generative AI (GenAI).
Роль предполагает управление полным жизненным циклом моделей — от разработки до масштабируемого развертывания — с фокусом на оптимизацию производительности, надежность и автоматизацию в распределенных системах.
Краткое описание задач:
- Проектирование, разработка и деплой ML-моделей в продакшн (AWS, GCP, Azure, on-prem).
- Создание масштабируемых ML-пайплайнов для распределенного обучения и инференса на multi-GPU.
- Реализация стратегий деплоя с использованием Docker, Kubernetes, Terraform и CI/CD-процессов.
- Оптимизация обслуживания LLM и GenAI-моделей для минимизации задержек и обеспечения высокой доступности.
- Коллаборация с Data Scientists, MLOps и инженерами для операционализации моделей.
- Мониторинг, обеспечение наблюдаемости и тонкая настройка производительности моделей в масштабе.
- Внедрение лучших практик версионирования, воспроизводимости и соответствия требованиям (безопасность, управление данными).
- Участие в архитектурных решениях, оценке инструментов и улучшении процессов деплоя ML-моделей.
Requirements:
- 4+ years of experience in ML engineering, with a focus on model deployment and
productionization. - Proficient in Python (mandatory); experience with Java is a plus.
- Proven experience with LLMs, GenAI models, and distributed model serving.
- Deep understanding of multi-cloud environments (AWS, GCP, Azure) and hybrid
deployments. - Experience with containerization (Docker) and orchestration (Kubernetes) for ML
workloads. - Strong knowledge of model inference optimization, GPU acceleration, and parallel
processing. - Familiarity with tools like TensorFlow Serving, TorchServe, Triton Inference Server, ONNX Runtime, or similar.
- Experience in high-throughput system design, REST/gRPC APIs for model serving, and scaling strategies.
- Solid grasp of MLOps concepts including CI/CD, monitoring, drift detection, and
retraining workflows.
- Knowledge of KubeFlow, MLflow, SageMaker, Vertex AI, or Azure ML.
- Exposure to quantization, pruning, and other model optimization techniques.
- Understanding of data security, privacy, and compliance in regulated environments.
- Experience working in agile and cross-functional teams.
Brief description of the project:
We are seeking a highly skilled Machine Learning Engineer with over 10 years of experience, specializing in deploying ML models in production environments across multi-cloud (AWS, GCP, Azure) and on-premise infrastructure. The ideal candidate will have strong expertise in high-throughput systems, multi-GPU environments, and hands-on experience with Large Language Models (LLMs) and Generative AI (GenAI) solutions.
This role focuses on end-to-end model lifecycle management, from development to scalable deployment, with a key emphasis on performance optimization, reliability, and automation in complex distributed systems.
Brief description of tasks:
- Design, develop, and deploy ML models into production across AWS, GCP, Azure, and on-prem environments.
- Build scalable, high-throughput ML pipelines supporting multi-GPU and distributed training/inference.
- Implement robust deployment strategies using Docker, Kubernetes, Terraform, and CI/CD workflows.
- Optimize model serving for LLMs and Generative AI applications, ensuring low latency and high availability.
- Collaborate with data scientists, MLOps, and platform engineering teams to
operationalize models. - Ensure monitoring, observability, and performance tuning of deployed models at scale.
- Drive best practices in model versioning, reproducibility, and compliance (including security and data governance).
- Contribute to architecture decisions, tool evaluation, and process improvements for ML deployment and serving
Тип работ: outstaff / fulltime
Продолжительность работ: 12 месяцев
Допустимый часовой пояс (GMT): UTC+7 (+- 3 часа)
Для рассмотрения специалиста необходимо заполнить форму
Контакты:
*Для размещения информации о запросах и доступных IT-специалистах присоединяйтесь к чату Аутстаффинг агентств