Dipol FM | 105,6 fm

Центрам обработки данных угрожает закон Мерфи

О том, как невнимательность и беспечность становятся причинами выхода из строя ЦОДов  во всем мире, рассказал системный инженер APC.

_В 50-х годах прошлого столетия американский капитан Эдвард Мерфи сформулировал знаменитый философский закон, согласно которому из двух вариантов, правильного и неправильного, кто-то обязательно выберет приводящий к катастрофе. Чрезвычайные ситуации по вине человека возникают и по сей день. О том, как невнимательность и беспечность становятся причинами выхода из строя центров обработки данных во всем мире, рассказал на шестнадцатой конференции «Арсенал +» системный инженер APC Сергей Пахомов._

Почему падают ЦОДы
==================

Центры обработки данных (ЦОД) — это сердце любой информационной системы. Проще всего можно описать его следующим образом: как правило, большое темное помещение со сложной системой поддержания температуры, в котором установлены металлические шкафы с серверами, обрабатывающие поступающую на них информацию со всей подключенной сети. В Тюмени, к примеру, два крупнейших ЦОДа (один из них резервный) обслуживают правительственные информационные системы и обеспечивают оказание электронных госуслуг.

«Информации по центрам обработки данных в России, несмотря на то, что их достаточно много, практически нет в свободном доступе. Ситуация напоминает знаменитое изображение с тремя обезьянами: ничего не слышал, не видел и не скажу. А вот по западным ЦОДам все с точностью до наоборот. Есть примеры успешных и не очень успешных решений», — отметил в начале своего выступления инженер APC.

ЦОДы периодически падают, то есть выходят из строя, и от этого никуда не деться. Почему это происходит? «Первоочередной виновник — человеческий фактор. Вторая причина — наше любимое русское авось, — уверен Сергей Пахомов. — По проекту кондиционер должен висеть здесь, но легче его повесить на пять сантиметров левее и ниже, авось ничего не случится».

На всякий случай многие компании имеют такой документ как DRP, Disaster Recovery Plan, план аварийного восстановления. Он отвечает на важнейший вопрос: что мы будем делать, если что-то случится? «Но даже наличие красивого и большого, но слегка неактуального DRP приводит к тому, что в случае возникновения реального происшествия никто не знает, что делать», — подчеркнул инженер.

Чтобы проиллюстрировать это, представитель компании, которая долгие годы создавала источники бесперебойного питания (теперь бренд APC принадлежит Schneider Electric), рассказал о нескольких интереснейших случаях, происшедших в разное время в российских и зарубежных ЦОДах.

Смех и грех
===========

Центр обработки данных известной компании Amazon был укомплектован самым современным и производительным оборудованием и стоил миллионы. Но вот за одновременное включение генераторов в случае, если внешний источник энергии вдруг пропадет, отвечала одна маленькая плата стоимостью меньше сотни долларов.

Эта единственная точка отказа вышла из строя и не дала синхронно запуститься генераторам, когда выключилось электричество. В результате пользователи остались без сервиса на продолжительное время, описал события докладчик.

Компания Amazon вынесла урок из этой истории и поставила сразу несколько таких плат. На всякий случай. «Если цена простоя бизнеса велика, нужно избавляться от единственных точек отказа и постоянно проводить анализ состояния инфраструктуры ЦОДа», — уверен Сергей Пахомов.

Вторая история приключилась с московским поставщиком услуг DataLine. «Для данной компании сдача своих мощностей в аренду является основным бизнесом, — подчеркнул инженер. — В 2010 году в Москве случился серьезный ураган, в результате которого металлическими конструкциями, упавшими с соседней крыши, разрушило систему охлаждения ЦОДа, и он вышел из строя».

Центрам обработки данных угрожает закон Мерфи
_Фото с сайта telecombloger.ru_

Несмотря на высокую отказоустойчивость и хорошие показатели самого ЦОДа, никто не ожидал падающих с неба металлических балок.

Третий пример относится к центру обработки данных, расположенном в Австралии. Внезапно в этой, прямо скажем, не самой холодной стране началось лето. ЦОД работал несколько лет и все было хорошо, но в этом сезоне установилась температура воздуха выше, чем во все предыдущие годы. В результате не выдержала система охлаждения, один за другим начали отказывать кондиционеры.

«Не только в Австралии бывает 40 градусов. У нас тоже бывает жарко, я думаю, что раз в сезон такая температура может установиться и в Тюмени. Поэтому когда мы проектируем ЦОД, то должны ориентироваться на метеоданные за последние 10-15 лет, не меньше», — заметил выступающий.

Центрам обработки данных угрожает закон Мерфи

Классический русский пример — в ЦОДе компании «Уралсвязьинформ» однажды прорвало трубу отопления. Вообще, труба была этажом выше, но суть в том, что без связи остались сотни банкоматов, отделений банков и около 200 тыс. клиентов.

А в одну из неназванных российских компаний коллега выступающего как-то поставлял оборудование. Руководство фирмы решило сэкономить на внешнем байпасе (устройство обхода в электрической цепи) и сделать его собственными силами. В процессе проектирования работники забыли подключить два маленьких сигнальных кабеля. Когда источник бесперебойного питания перевели из рабочего режима в байпас, все сгорело. Сомнительная получилась экономия. «Этот урок учит нас вводить в план проверочных мероприятий проверку «на дурака», — пошутил Пахомов.

Есть такой фразеологизм «идеальный шторм». Он означает ситуацию, которая возникла из-за сложения редких неблагоприятных факторов, в результате которых суммарный разрушительный эффект резко вырос. Такой шторм однажды приключился в Google.

«Отказали внешние поставщики электроэнергии. — описал события инженер APC, — Затем, при переходе на дизельные генераторные установки, отказали и они. Сотрудники компании открыли DRP, но оказалось, что кнопки, которая в нем описана, просто нет. А рубильник и так переведен в предписываемое положение. В общем, в плане восстановления была как минимум двухлетняя задержка».

Ну и напоследок эксперт рассказал о ЧС, случившейся однажды в ЦОДе британского телекоммуникационного оператора British Telecom. «ЦОД этой компании находился на шестом этаже. В здании начался пожар, в ЦОДе возникли проблемы с сетью. Когда ремонтники приехали его чинить, их туда просто не пустили. А с удаленным управлением были проблемы, можно было что-то изменить только непосредственно из консоли управления в ЦОДе. На несколько часов сеть отпала у всех абонентов», — описал стечение непредвиденных обстоятельств Сергей Пахомов.

Что же делать? Эксперт уверен, полностью исключить все факторы никогда не удастся. Но лучше бы владельцам ЦОДов периодически проводить их аудит, искать точки отказа и пути оптимизации. Только так можно составить внятный план действий в чрезвычайной ситуации.

Справка

_Шестнадцатая ежегодная осенняя конференция «Арсенал +» проводится для руководителей и экспертов IT-отрасли. С докладами по последним предложениям и решениям выступают ведущие вендоры. В этом году она была посвящена оптимизации расходов, в связи с урезанием бюджетов на IT в российских компаниях._

Неудобно на сайте? Читайте самое интересное в Telegram и самое полезное в Vk.
Последние новости
В Ялуторовске соседку обвинили в гибели троих детей и отправили в тюрьму
В Ялуторовске соседку обвинили в гибели троих детей и отправили в тюрьму
Ее признали виновной по нескольким статьям УК РФ.
#уголовное дело
#прокуратура
#суд
#гибель
#пожар
#дети
#Ялуторовск
#Тюменская область
Александр Моор проверил дамбы в Ялуторовске, куда вслед за Упорово придет паводок
Александр Моор проверил дамбы в Ялуторовске, куда вслед за Упорово придет паводок
Критическая отметка в городе – 850 см.
#Александр Моор
#паводок
#Ялуторовск
#Тобол
#Тюменская область
Тюменский политолог Безделов назвал российские регионы, которые могут объединить
Тюменский политолог Безделов назвал российские регионы, которые могут объединить
Эксперт отметил, что Тюменская область является самостоятельным регионом.
#Тюменская область
#Ямал
#ХМАО
#политика
#экономика
#новости Тюмени
В Абатском районе жителей Назарово эвакуируют на катере в село Ощепково
В Абатском районе жителей Назарово эвакуируют на катере в село Ощепково
Из зоны возможного подтопления вывезли около 90% населения.
#паводок
#Абатский район
#эвакуация
Четыре тюменских ресторана уличили в приготовлении блюд из сомнительной баранины
Четыре тюменских ресторана уличили в приготовлении блюд из сомнительной баранины
Специалисты Россельхознадзора проверили шесть ресторанов областной столицы.  
#ресторан
#проверка
#Россельхознадзор
#Роспотребнадзор
#мясо
#новости Тюмени