April 29, 2020

Новая команда ИТ — команда SRE

ЧЕМ ЗАНИМАЕТСЯ КОМАНДА?

Алексей Голиков: Site Reliability Engineering буквально переводится — надёжность сайта. 

Саша Ергин: занимаемся внедрением инструментов для обеспечения надёжности и производительности наших сервисов. Сейчас работаем над сбором метрик.

Алексей Голиков: разбираем компоненты и процессы наших систем по кусочкам, внедряем мониторинг.

Руслан Бергутов: получаем большое количество показателей из разных мест системы. «Подкладываем градусники» — кто-то из наших ребят сказал, очень хорошо описывает то, чем мы сейчас занимаемся. 

Саша Ергин: например, для обычных сервисов мы собираем: время задержки, количество ошибок, размер ответа и количество запросов в обработке. Но ещё есть разные базы данных, очереди и т.д. — там куча других показателей.)

Для сбора метрик мы используем по классике прометеус и графану, а для service mesh — пока в поиске более легковесных решений, чем istio. Для сервиса Rest API добавили open tracing — теперь до него в инстане можно делать трассировки.

КАКИЕ ПЛАНЫ ДАЛЬШЕ?

Саша Ергин: в планах создать такую среду, чтобы в прод доезжали релизы сервисов, которые удовлетворяют потребностям бизнеса. Так же помогать командам быстрее находить баги. 

Алексей Голиков: очень плотное взаимодействие с бизнесом по определению тех самых критериев «качества и надёжности».

Руслан Бергутов: Работа с инцидентами. В это входит и подробная отчётность по происшествиям на сайте, и карта контактов, кого необходимо подключать к проблеме. Контроль релизов. В текущий момент все наши приложения развиваются семимильными шагами, и в таких темпах нужен некоторый уровень порядка.

КАКАЯ ПОЛЬЗА ОТ ТОГО, ЧТО ВЫ ДЕЛАЕТЕ?

Саша Ергин: пока идёт подготовительная работа, не считая сбора метрик. А вообще набор практик, который мы внедряем, поможет повысить uptime и снизить количество ошибок.

Алексей Голиков: уменьшение количества сбоев. Уменьшение времени простоя сервисов в случае сбоев. Возможность узнать о проблеме раньше пользователей. Ускорение сервисов и сайтов в целом.

Руслан Бергутов: Создание гибкого и эффективного набора инструментов, который позволит поддерживать и улучшать уровень качества работы сайта. Огромное количество точек отказа, багов, некорректного или нереализованного поведения, человеческий фактор, высокая скорость разработки — в общем, это масштабный проект, мониторинг состояния которого не решается задачами «в лоб».

КАК ПРОХОДИТ ВАША РАБОТА СЕЙЧАС?

Руслан Бергутов: удалённо) Да, в целом планово, стандартно. ДМы растянулись по времени, потребность в живом общении есть.) Спринты у нас недельные — это очень хорошо помогает, когда команда стартует и еще нет чёткого результата. Помогает видеть промежуточные итоги, которым можно порадоваться и нащупать вектор развития.

ЧТО САМОЕ СЛОЖНОЕ? ЧТО ЛЁГКОЕ?

Саша Ергин: если раньше я работал над одним-двумя сервисами, то теперь их куча. Плюс хочется сделать очень много всего, но из-за ограничений по ресурсам, времени, сложности эксплуатации приходится находить баланс. Плюс вопросы производительности всегда уходят в глубину технологий, это тоже сложно, зато узнаю много нового.

Но у нас очень легко с коммуникацией, как говорится — на одной волне. В других командах мы занимались очень разными областями, поэтому на практически любой вопрос кто-нибудь да знает ответ.

Алексей Голиков: Сложное.. хм.. правильно «продать» идею SRE — с этим пришлось повозиться. А самое лёгкое, это точно взаимодействия внутри команды, все вопросы проходим быстро, все точно знают, что и как делать.

Очень забавляют наши «походы в бар». По видеосвязи. Дома.