July 20, 2020

Неуязвимость. Отчего системы дают сбой и как с этим бороться

«Неуязвимость. Отчего системы дают сбой и как с этим бороться» - авторы Крис Клирфилд и Андраш Тилчик.

Все существование человека основано на необходимости систематизации, все в окружающем мире можно рассмотреть как систему. Все, – начиная от игр с ребенком, и заканчивая написанием докторской диссертации. Системы, они повсюду. Хорошо спланированная система позволяет нам жить комфортнее. Но самая отлаженная система время от времени дает сбой – то Ваш рейс отменяется, то посылка потеряется. Иногда происходят сбои катастрофического масштаба. Как правило, мы назначаем виновниками трагедий нечто определенное, но иногда к трагедиям ведет цепочка маленьких сбоев, в которых людям отведена незначительная роль.

Книга «Неуязвимость. Отчего системы дают сбой и как с этим бороться» написана далеко не случайными людьми. Крис Клирфилд и Андраш Тилчик – специалисты по управлению рисками, они готовы на все 100 поделиться с читателями своим опытом по совершенствованию систем. Конечно, все системы совершенно разные, но у них есть определенные общие черты. «Системы можно и нужно делать безопаснее» - считают авторы. И кто знает, какое происшествие Вы сможете избежать, уже вооруженные знаниями…Вот несколько идей из книги, что помогут Вам сделать системы безопаснее.

Идея 1. Системы сложны, но люди не понимают этого. Отсюда и такое количество трагедий и случаев мошенничества.

Технологии привнесли в нашу жизнь комфорт, мы к нему давно привыкли. Но технологии развиваются, а, следовательно, усложняются. Сложные системы понимаются далеко не всеми людьми. У непонимания есть свои негативные последствия.

Первое – это то, что любая, даже самая незначительная ошибка может повлечь катастрофические последствия. Сейчас многие системы автоматизированы, участие человека в них – эпизодично. Люди хуже замечают ошибки в такой системе. В истории США можно найти очень показательный пример маленькой, но катастрофической ошибки. АЭС Mile Island в штате Пенсильвания, на улице 1979 год. Мало кто из жителей прилегающих к АЭС городков задумывался о катастрофе, что вот-вот произойдёт. И катастрофа грянула как гром среди ясного неба. По вине чего бы Вы думали? По вине маленькой ошибки, что была допущена при ремонте системы водоснабжения. Из строя вышли насосы, перекачивающие нагретую воду из реактора в парогенератор. Система охлаждения дала сбой, реакторы стали перегреваться. Далее последовал еще один сбой – не сработал компенсаторный клапан, который должен был сработать, и вода все-таки охладила бы реактор. На приборной панели все отражалось вполне нормально, сотрудники не волновались – клапан в порядке. Быстрой реакции со стороны работников станции на проблему не последовало. Был упущен момент действовать, и радиация накрыла и саму станцию, и ее окрестности. Персонал и жителей ближайших к станции городков пришлось спешно эвакуировать.

Конечно, в катастрофе на станции можно обвинить ремонтные бригады. Их ошибки дорого обошлись. Но всем нам свойственно время от времени ошибаться. Система должна изначально учитывать то, что человеку свойственно ошибаться. Если система полагается на безошибочность действий человека, то она заранее обречена. Катастрофами в контексте темы не обязательно могут быть аварии на АЭС. Катастрофой человек может назвать любое обстоятельство, существенно изменившее его жизнь в худшую сторону.

Но катастрофы – это не единственное негативное для человека последствие усложнения систем. Чем сложнее система, тем больший простор остается для злоупотребления. На сегодняшний день хакерством, финансовыми махинациями и фальсификациями уже никого не удивишь. Сейчас многие приборы работают с возможностью удаленного подключения. Например, медтехника, автомобили и многие другие вещи. А что если умысел злоумышленников выйдет за пределы опустошения чужих банковских счетов? Страшно это представить, но это не так уж невероятно – преступления завтрашнего дня, так сказать. Чем сложнее система, тем и сложнее ее обезопасить от людей с дурными намерениями.

Третье последствие усложнения систем – это ненамеренные проявления несправедливости. Например, такое последствие имело место быть при внедрении электронной службы Horizon британской почтовой службой. Система неоднократно давала сбои, и многие люди были несправедливо обвинены в мошенничестве. А виновата была автоматизированная система.

Идея 2. Наиболее опасны сложно устроенные системы

Почему системы так уязвимы. Один исследователь катастроф, Чик Перроу выделил два основных фактора, которые влияют на уязвимость систем.

Фактор первый – Степень линейности или нелинейности. Линейная система похожа на конвейер, то есть производство идет поэтапно. Если появляется ошибка, то происходит сбой и все производство останавливается. В нелинейной системе все гораздо сложнее. Примером нелинейной системы можно считать АЭС, взаимодействие ее элементов очень запутанно для несведущего в атомной энергетике. Нет, сложность системы определяется не стоимостью системы, не архитектурой, но взаимодействиями отдельных ее частей – линейными или нелинейными. Если даже небольшая незаметная ошибка ведет к катастрофе, то система определяется как сложная и нелинейная.

Фактор второй – жесткая связанность системы. Степень связанности определяется вопросом: «Предусмотрен ли системой запас времени на устранение ошибки и позволяет ли вообще система ошибаться?». Система без «подушки безопасности» - жестко связанная система. Системы бывают 4 категорий связанности – сложная, жестко связанная; сложная, не жестко связанная; простая, жестко связанная; простая, не жестко связанная. Как Вы могли догадаться, наиболее подвержены опасности сложные и жестко связанные системы. Если система сложна, то в ней много элементов, а если эти элементы жестко связаны, то любой, даже самый малый сбой дает порой катастрофические последствия.

Информационные технологии позволяют реализовывать самые смелые планы человека, но эти же технологии могут и погубить эти планы. Например, одно неосторожное слово в рекламной кампании может вызвать большой скандал, за которым последует осуждение общественности и обвал акций компании на бирже. Соцсети доступны каждому, каждый может высказаться, но неизвестно как наше слово отзовется…

Хотя сейчас создаются новые сложные системы, что называется «с нуля», многие старые системы в целях конкурентоспособности также совершенствуются. Старая и постоянно обновляющаяся в угоду потребностям времени и общества система – финансовая. Она сложна и жестко связана, так как состоит из строгих алгоритмов заключения сделок. И если одна из частей этой системы дает сбой, то случаются непредвиденные последствия. Этот сбой может повредить даже самым удаленным от источника сбоя уголкам планеты. В 2012 году произошел памятный сбой в системе Knight Capital, от ее имени стали рассылаться сотни заявок в секунду на покупку акций различных компаний. Рынок стал меняться, стоимость акций тоже изменилась. Компания теряла 15 млн долларов каждую (!) минуту. Общий ущерб для компании составил 500 млн долларов. Причина ошибки оказалась невероятно мала и проста – один IT-специалист неправильно скопировал новую версию торгового программного обеспечения. Конечно, автоматизация финансового рынка сократила издержки, но опасность, связанная с ошибками, увеличилась, так как система стала очень сложной и непрозрачной для человеческого взора.

Идея 3. Со сложными системами нам трудно иметь дело из-за особенностей человеческой психики.

Развитие и усложнение технологий сделали возможным ранее невероятное. Но психология человека, его интеллектуальные и физические возможности, все равно не приспособлены к сложным системам. И вот почему.

Во-первых, люди часто полагаются не на расчет, а на интуицию. А интуиция часто подводит людей. И это касается всех сфер жизни человека – работы, личной жизни и так далее.

Во-вторых, люди часто умалчивают о своих ошибках или не придают им значения. Информация, которая может способствовать совершенствованию системы, безвозвратно теряется. А иногда человек сознательно не признает своих ошибок, отрицает факты об объективной реальности.

В-третьих, человек склонен прислушиваться к мнению авторитетов. Человек – это социальное существо и готовность искать взаимопонимание с другими людьми заложена в нашем мозгу. Если человек настроен выражать несогласие с мнением большинства, то мозг этого человека вовсю трубит об опасности. В древние времена несогласие с мнение вождя или общины могло привести человека к изгнанию, а изгнание – к смерти. На сегодняшний день все устроено не так, как в древние времена, но вот данный механизм мозга никуда не делся. Было установлен интересный факт – человек, наделенный властью, меньше прислушивается к мнению окружающих. Ученые выявили в данном случае состояние, которое встречается при повреждении орбито-фронтальной области. Это повреждение делает людей более импульсивными. Власть создает иерархию из лояльных друг другу людей. А еще люди не любят чужаков, что повышает степень конформизма и безмозглого соглашательства.

И последнее в списке, но далеко не последнее в жизни, вредоносное качество человека – это нездоровая целеустремленность. Краткосрочные цели человека занимают все его внимание – вот составлен план действий и Вы действуете. Однако, чем больше Вы действуете, тем сильнее меняется действительность. Если не корректировать план по ходу наших действий, выявляя предупреждающие сигналы, то результат может быть неудовлетворительным.

Идея 4. Если предупреждающих сигналов чересчур много, то система усложняется, а человеку становится сложнее с ней взаимодействовать.

Системы можно улучшить, например, усилив контроль – это сделает их безопаснее. Вот только дополнительные улучшения безопасности делают систему еще более сложной. Конечно, системы безопасности нужны, но их не должно быть слишком много, так как взаимодействующий с ними человек может просто запутаться и в нужный момент подвести.

Помимо установки систем безопасности, нужно стремиться к упрощению системы. Упрощать нужно для того, чтобы каждый желающий мог быстро понять устройство системы. В упрощении могут оказать хорошую помощь уже упомянутые критерии Чика Перроу. Нужно рассмотреть всю систему «от» и «до», рассмотреть все связочки, все линии процессов, все обязанности людей. Рассмотрите любую организацию как систему и создайте не просто предупреждающие об опасности сигналы, но целую их иерархию, в зависимости от уровня или типа опасности.

Еще несколько полезный идей из книги

Интуицию нужно ограничивать. К сожалению, она не настолько надежна, как человек полагает. Ей на смену можно предложить т.н. метод «Субъективных интервальных оценок вероятностей» (SPIES). Его суть заключается вот в чем. Берем все возможные результаты, вносим их в левый столбец таблицы, а в правый вносим оценочную вероятность успешного выполнения действия, в процентах. (например, сделать проект в срок до 2 месяцев – 5%, в срок до 4 месяцев – 10% и так далее). Сумма всех вероятностей должна составить 100. Таблица поможет Вам вычислить т.н. интервал уверенности.

Людям нужно учиться признавать свои ошибки. Люди часто стыдятся своих ошибок, стараются отрицать их. Постепенно реальность становится все более и более оторванной от нашего сознания. Как бы ни было неприятно и больно, но нам нужно чаще признавать свои ошибки. Когда мы признаем свою возможную неправоту, мы делаем шаг в сторону реальности. Поэтому в любой организации необходимо создавать культуру открытого признания ошибок. Чем чаще люди будут признавать мелкие ошибки, тем меньше будет сбоев и меньше будет вероятность возникновения чрезвычайной ситуации.

Целеустремленность не всегда полезна. Иногда человек зацикливается на своей цели и игнорирует все предупреждающие сигналы внешнего мира. Такой человек ставит в опасное положение и себя, и окружающих. Но многие организации сами взращивают людей с болезненной целеустремленностью. «Добиться любой ценой?» - «Пожалуйста!». «Получить контракт во чтобы то ни стало?» - «Да не вопрос!». На людей давят, и те в попытке «во что бы то ни стало» добиться заветной цели забывают о том, что действительно важно в долгосрочной перспективе. Организации могут и изменить свои модели мотивации сотрудников, например, награждать их не только за достижение целей, но и за предотвращение проблем. Кстати, проблему можно найти не только на секунду остановившись, но и при помощи т.н. зацикливания. То есть сначала выполняется действие, далее оно анализируется, а после предлагается уже новое действие.