October 10

Новые направления Центра эксплуатации вычислительной техники

АИТ засыпает просыпаются они — те, которые вечером и ночью работают с «железом» — ребята из Центра эксплуатации вычислительной техники. Сегодня расскажем подробнее, чем занимаются коллеги и почему по ночам. Читайте интервью руководителя Центр Игоря ЛОНШАКОВА.

Расскажи про Центр в целом.

Центр входит в Управление эксплуатации вычислительной и сетевой инфраструктуры и включает в себя четыре направления:

  1. эксплуатация железа и виртуализация;
  2. системы резервного копирования;
  3. направление инженерных систем;
  4. направление баз данных.

Первые два созданы давно, и многие знакомы с коллегами. Два других — в процессе становления. Всего это 27 сотрудников.

Какая задача новых направлений. Как они улучшат работу?

Центр имеет высокую долю присутствия и ответственности. ЦОДы находятся один в Москве и два в Мирном, критичные серверные помещения по одному находятся на каждой локации присутствия компании. Коллеги контролируют работу инженерных систем, участвуют во всех крупных проектах.

В цифрах:

  • 3ЦОДа;
  • 2коммерческих ЦОДа (аренда стойко-места и располагаем оборудование);
  • 21 серверное помещение.

Многие помещения, которые находятся на производственных площадках, относятся к ГОКам и, соответственно, обслуживаются у них. При этом специалисты Центра регулярно напоминают и участвуют в ремонтах/профилактических работах/обслуживании и т.д.

Направление инженерных систем стартовало в начале года, и сейчас там трудится только один человек, Максим КОНДРАКОВ. Все его силы сейчас направлены на то, чтобы собрать информацию по всем инженерным системам от которых зависит работоспособность нашего оборудования и обеспечить их бесперебойную работу.

Задачи направления следить за состоянием инженерного оборудования — проводить аудиты по всем помещениям, где располагается техника, прописывать требования в ГОКи с обоснованиями работ/закупок. А после обеспечивать монтаж, подключение, и т.п. чтобы оборудование находилось в хороших условиях и обеспечивало функционирование наших серверов.

Второе новое Направление баз данных.

Центр наводит порядок в работе наших многочисленных баз данных. Чтобы было понятно всем, объясним на примере ИС СЭД.

Если при запуске ИС СЭД работает медленно, одна из причин может быть огромном объеме документов. Каждый файл помещается в базу данных. Со временем она наполняется до невероятных масштабов. ИС СЭД обрабатывает это количество документов и не справляется.

Исправить это можно, со стороны системы управления данными. Необходимо проанализировать, как часто используются данные и за какой период. Например, к документам за последние три года обращаются с частотой 10 тысяч запросов в сутки, а к данным, которым 10 лет, обращаются три раза в год.

В такой ситуации, данные за последние три года мы отсекаем и оставляем в действующей базе, а данные за предыдущие семь лет переносим в архивную — более медленную систему. За счет того, что мы «отрежем» часть, обработка оставшихся трех лет значительно ускорится — это и называется процессом управления данными.

В других случаях может помочь перестроение системы запросов, дополнительное индексирование, и т.п. процедуры.

Последний проведенный аудит показал, что в компании тысячи баз данных, которые в том числе дублируют информацию. И это огромный пласт работ, которым нужно заниматься.

Как проходит рабочий день руководителя Центра?

Рабочий день проходит очень активно, также у меня много плановых и много неплановых командировок.

Админы, как доктора, к которым приходят, когда становится совсем плохо. Поэтому много незапланированной работы. Конкретно я появляюсь там, где уже окончательно «реанимационный случай».

Кроме этого, стараюсь выстроить общую стратегию работы Центра таким образом, чтобы решить «застарелые» вопросы: обеспечить прозрачность использования вычислительных мощностей и надежность эксплуатации серверного оборудования, оптимизировать работу баз данных, перестроить процессы для того, чтобы сама эксплуатация была понятной и прозрачной.


С чем связаны случаи, когда необходимо здесь и сейчас решать срочные задачи?

Авралы случаются. Мы единственное подразделение, которое связано непосредственно с железом. И у нас бывают сюрпризы. Например, отключение электричества в Мирном (прошлый год ознаменовался такой ситуацией).

Масштабное отключение электричества в Мирном повлекло за собой отключение двух ЦОДов. Тогда источники бесперебойного питания не справились и времени на запуск ДГУ не хватило.

Я приехал утром на работу в офис Новосибирска, а уже на следующий день мы исправляли ситуацию в Мирном. Конечно, все уроки были выучены, ИБП заменены, в схему электроснабжения включены еще и резервные ИБП, а с нашими коллегами из СТ «Алмазавтоматика» мы каждый квартал теперь проводим тренировки по сохранению работоспособности ЦОД при отключении внешнего электроснабжения.

Что самое сложное в работе?

В том, что мы работаем с фундаментальным сервисом, на основе которого предоставляются все другие ИТ-услуги нашей компании. Проще говоря, любая ИТ-система работает на серверном железе. Соответственно, все наши действия с серверами, могут повлиять на наших пользователей.

Поэтому, нам важно провести работы незаметные для пользователя. И мы много работаем по ночам и в выходные. Специально, чтобы не отвлекать коллег от рабочего процесса. Например, если что-то случится с серверами БоссКадровик, то АЛРОСА Бизнес-сервис не сможет посчитать зарплату, учесть больничные, командировки и т.д. Страшно представить, что начнется :) Поэтому, мы очень стараемся быть незаметными для наших коллег 😊

Как происходит планирование работ?

Мы никогда не проводим необдуманных работ, т.к. любая ошибка могла бы привести к отказу комплексов и систем и длительному критическому отказу. Заранее составляется план производства работ и отслеживается его выполнение. Мы расписываем подробную инструкцию, включая все до мелочей: на какой сервис подключиться, что нажать, какую выполнить процедуру. Это важно, чтобы все шло по порядку и не привело к сбою.

А если вдруг что-то не учли в алгоритме? Есть план «Б»?

На этот случай перед работами разрабатываются планы отката. Если все же что-то пойдет не так, и потребуется вернуться на исходную позицию. Плюс специально создаем резервные копии. Это важно, иначе последствия могут быть не слабее, чем от хакерской кибератаки.

Уровень ответственности зашкаливает. Приходится быть очень серьезным в работе. Что перетекло из работы в жизнь? Есть ли профдеформация?

Из плохого — я стал еще бОльшим занудой (сам в шоке, что есть куда расти :)).

Сложность технологий приходится объяснять максимально простыми словами и длинно. Привычка перешла в жизнь, и иногда вместо простого рассказа я начинаю историю примерно от зарождения жизни на Земле :)

Из положительного отмечу необходимость погружаться в процессы. Буквально начиная с мелочей и законов физики. Это позволяет многое воспринимать по-другому. А еще гораздо легче учиться.


Что для тебя качественный сервис?

Конкретно в нашем случае, качественный сервис — это, когда о нас не знают, и нет необходимости к нам обращаться. Чем реже о нас вспоминают, тем лучше мы работаем.

Я горжусь своей командой! Не только как профессионалами, а также и как прекрасными людьми.

#ДОСТИГАЕМРЕЗУЛЬТАТАВМЕСТЕ


*Бонус

А еще инфраструктура может создать драконов. Все дело в 3Д-принтере.

За появление 3Д-принтера огромное спасибо заместителю генерального директора Александру ПЕРФИЛОВУ.

Принтер появился недавно, и пока мы его только изучаем, отсюда и драконы. Но в дальнейшем планируем использовать его и в рабочих целях. Очень удобный и полезный в работе инструмент.