April 10, 2019

Почему я ночую в офисе

💬 Андрей Талабирчук: Итого начнемс. Как-то пару месяцев назад мы получили отказ в обслуживании одного из узлов связи в офисе Москвы, что, в свою очередь, вызвало ее недоступность примерно на 6 часов. Восстановили, но выглядело это костыльно-колхозно — схема 1👇🏼.

Красным отметил, где произошла печалька из-за недоработанного и кривого программного обеспечения связующего коммутатора (коллеги Азиаты (КНР) привет:)).

Как видно из схемы 1, мы имеем несколько точек отказа (можете посчитать, их много), и в случае какого-то аналогичного факапа с другой точкой мы получаем такую же недоступность.

«Что же делать?» — задали мы себе такой вопрос. Провели Пост-Мортем по этой ситуации и по проблеме в целом. *Пост-Мортем — событие в скраме, направленное на выявление первоочередного косяка. Решили произвести небольшую модернизацию сети с минимальными затратами на оборудование и полное изменение логической схемы связи офиса.

Из задач нужно было (разделил, что можно делать в течении дня, что в нерабочее время):

  • (удаленно до прибытия в МСК) протянуть оптику средствами подрядной организации;
  • (удаленно до прибытия в МСК) приобрести и подобрать оборудование на совместимость sfp модули и медиаконверторы;
  • (днем) перенести физические линии связи одного очень дорогого оператора в офисе в другое место (схема 2);
  • (днем) установить еще один коммутатор для дублирования коммуникаций;
  • (днем) получить оборудование и проверить работоспособность;
  • (вне рабочее время) переключить всю связь на оптику;
  • (в нерабочее время) поменять логику работы маршрутизации внутри офиса.

Первые два пункта, которые проводились удаленно, и работы, выполняемые в течение дня, прошли успешно. Настала ночь: проснулась Мафия:)

Начинаем ломать старую логику и накатывать новую. Как показывает практика, из запланированных работ 3/4 проходит как и думал, а оставшиеся 25% — совсем не по плану. Короче с логикой у нас возникли небольшие трудности:) Побеждали мы ее ~ с 21.00 до 3х ночи. Можете выдохнуть — все восстановили в 3 ночи. Сил уже не осталось, очень сильно хотелось спать, мозг говорил: «Иди в жопу, мне нужен покой»))).

А так как жил я на Арбате в 4 км от офиса, то вызывать такси, ждать приезда, подниматься домой, ложиться спать —это примерно 40 минут или 1 час, то есть уснул бы я в 4 утра, а к 7 нужно было быть в офисе. Да, и вдруг, что-то не учли, получили бы еще один факап и необходимость резко все восстанавливать.

В общем, походил я по кабинетам, выбирая себе место для ночлега, нашел отличную переговорку с матрасами, пледиком и подушками (в виде бонуса дверь с щеколдой, видимо, чтобы тебя не застали ...). Я прилег, вырубился, поспал, в 6 утра меня разбудил топот и хлопок двери. Я так и не понял, кто так рано приходит в МСК на работу. Есть предположение, что это А.А. Но не захотев его видеть в это утро, я прошмыгнул резко в туалет, умылся и пошел смотреть систему мониторинга: все ли хорошо, нет ли проблем.

Все сказки хорошо заканчиваются, не исключение и этот раз. Система удачно переведена в боевой режим, проверена доступность и отказоустойчивость. Изменения можно наблюдать на схеме 2 — как видно, все центральные узлы связи объединены в кольцо, и выход из строя одного элемента не нарушит работоспособность сети, как было 2 месяца назад. Надеюсь, эта схема устаканится, и мы новые большие офисы и РЦ будем отрабатывать именно по аналогичной схеме.👍

🙏🏻 Андрей, спасибо тебе большое за твою круглосуточную работу и восстановление связи с Москвой. Желаем, чтобы все всегда оставались на связи и ночевали дома.