Новая команда ИТ — команда SRE
ЧЕМ ЗАНИМАЕТСЯ КОМАНДА?
Алексей Голиков: Site Reliability Engineering буквально переводится — надёжность сайта.
Саша Ергин: занимаемся внедрением инструментов для обеспечения надёжности и производительности наших сервисов. Сейчас работаем над сбором метрик.
Алексей Голиков: разбираем компоненты и процессы наших систем по кусочкам, внедряем мониторинг.
Руслан Бергутов: получаем большое количество показателей из разных мест системы. «Подкладываем градусники» — кто-то из наших ребят сказал, очень хорошо описывает то, чем мы сейчас занимаемся.
Саша Ергин: например, для обычных сервисов мы собираем: время задержки, количество ошибок, размер ответа и количество запросов в обработке. Но ещё есть разные базы данных, очереди и т.д. — там куча других показателей.)
Для сбора метрик мы используем по классике прометеус и графану, а для service mesh — пока в поиске более легковесных решений, чем istio. Для сервиса Rest API добавили open tracing — теперь до него в инстане можно делать трассировки.
КАКИЕ ПЛАНЫ ДАЛЬШЕ?
Саша Ергин: в планах создать такую среду, чтобы в прод доезжали релизы сервисов, которые удовлетворяют потребностям бизнеса. Так же помогать командам быстрее находить баги.
Алексей Голиков: очень плотное взаимодействие с бизнесом по определению тех самых критериев «качества и надёжности».
Руслан Бергутов: Работа с инцидентами. В это входит и подробная отчётность по происшествиям на сайте, и карта контактов, кого необходимо подключать к проблеме. Контроль релизов. В текущий момент все наши приложения развиваются семимильными шагами, и в таких темпах нужен некоторый уровень порядка.
КАКАЯ ПОЛЬЗА ОТ ТОГО, ЧТО ВЫ ДЕЛАЕТЕ?
Саша Ергин: пока идёт подготовительная работа, не считая сбора метрик. А вообще набор практик, который мы внедряем, поможет повысить uptime и снизить количество ошибок.
Алексей Голиков: уменьшение количества сбоев. Уменьшение времени простоя сервисов в случае сбоев. Возможность узнать о проблеме раньше пользователей. Ускорение сервисов и сайтов в целом.
Руслан Бергутов: Создание гибкого и эффективного набора инструментов, который позволит поддерживать и улучшать уровень качества работы сайта. Огромное количество точек отказа, багов, некорректного или нереализованного поведения, человеческий фактор, высокая скорость разработки — в общем, это масштабный проект, мониторинг состояния которого не решается задачами «в лоб».
КАК ПРОХОДИТ ВАША РАБОТА СЕЙЧАС?
Руслан Бергутов: удалённо) Да, в целом планово, стандартно. ДМы растянулись по времени, потребность в живом общении есть.) Спринты у нас недельные — это очень хорошо помогает, когда команда стартует и еще нет чёткого результата. Помогает видеть промежуточные итоги, которым можно порадоваться и нащупать вектор развития.
ЧТО САМОЕ СЛОЖНОЕ? ЧТО ЛЁГКОЕ?
Саша Ергин: если раньше я работал над одним-двумя сервисами, то теперь их куча. Плюс хочется сделать очень много всего, но из-за ограничений по ресурсам, времени, сложности эксплуатации приходится находить баланс. Плюс вопросы производительности всегда уходят в глубину технологий, это тоже сложно, зато узнаю много нового.
Но у нас очень легко с коммуникацией, как говорится — на одной волне. В других командах мы занимались очень разными областями, поэтому на практически любой вопрос кто-нибудь да знает ответ.
Алексей Голиков: Сложное.. хм.. правильно «продать» идею SRE — с этим пришлось повозиться. А самое лёгкое, это точно взаимодействия внутри команды, все вопросы проходим быстро, все точно знают, что и как делать.
Очень забавляют наши «походы в бар». По видеосвязи. Дома.