August 28

ID 2918. ML developer

Уровень: middle+, senior-, senior, senior+

Ставка: 21 usd/час (*указывайте в форме ставку с налогами)

Локация: любая

Требования:

  • 10+ лет опыта в ML-инженерии с акцентом на деплой и промышленную эксплуатацию моделей.
  • Уверенное владение Python (обязательно), знание Java будет преимуществом.
  • Практический опыт работы с LLM, GenAI и распределенным обслуживанием моделей.
  • Глубокое понимание мультиоблачных сред (AWS, GCP, Azure) и гибридных инфраструктур.
  • Опыт с контейнеризацией (Docker) и оркестрацией (Kubernetes) для ML-задач.
  • Знание методов оптимизации инференса моделей, GPU-ускорения и параллельных вычислений.
  • Работа с инструментами: TensorFlow Serving, TorchServe, Triton Inference Server, ONNX Runtime или аналогичными.
  • Опыт проектирования высоконагруженных систем, REST/gRPC API для обслуживания моделей, стратегий масштабирования.
  • Понимание концепций MLOps: CI/CD, мониторинг, детекция дрифта, процессы переобучения.

Будет плюсом:

  • Знание KubeFlow, MLflow, SageMaker, Vertex AI, Azure ML.
  • Опыт с квантованием, прунингом и другими методами оптимизации моделей.
  • Понимание вопросов безопасности данных, приватности и соответствия регуляторным требованиям.
  • Работа в agile-командах и кросс-функциональных проектах.

Краткое описание задач:

  • Проектирование, разработка и деплой ML-моделей в продакшн (AWS, GCP, Azure, on-prem).
  • Создание масштабируемых ML-пайплайнов для распределенного обучения и инференса на multi-GPU.
  • Реализация стратегий деплоя с использованием Docker, Kubernetes, Terraform и CI/CD-процессов.
  • Оптимизация обслуживания LLM и GenAI-моделей для минимизации задержек и обеспечения высокой доступности.
  • Коллаборация с Data Scientists, MLOps и инженерами для операционализации моделей.
  • Мониторинг, обеспечение наблюдаемости и тонкая настройка производительности моделей в масштабе.
  • Внедрение лучших практик версионирования, воспроизводимости и соответствия требованиям (безопасность, управление данными).
  • Участие в архитектурных решениях, оценке инструментов и улучшении процессов деплоя ML-моделей.

Тип работ: outstaff / fulltime

Продолжительность работ: 12 месяцев

Допустимый часовой пояс (UTC): UTC-7 (+- 3 часа)

Этапы интервью: 1

Для рассмотрения специалиста необходимо заполнить форму

Контакты:

https://t.me/alexispiple

a.ivanov@agima.ru

*Для размещения информации о запросах и доступных IT-специалистах присоединяйтесь к чату Аутстаффинг агентств