1. Новости
Заметки пользователей
27.07.2010 08:51
PDF
20277
22

Странное падение "ВКонтакте"

Авария социальной сети "ВКонтакте" на несколько часов 25 го июля 2010 года, которая объединяет более 80 млн. пользователей, слишком интересна,чтобы мы ее не заметили.

Во-первых, серверы были недоступны с 17-00 до 19-00 (полностью работа Интернет-ресурса была возобновлена примерно в 20-30): даже при том, что это соц.сетка, а не банк, явно должны были пострадать все технические руководители проекта. Во-вторых, репутационные потери велики - блоггеры выдавали «нагора» различные истории об обысках в офисах «ВКонтакте», и даже об изъятии серверов Интернет-ресурса (якобы в рамках уголовных дел о распространении порнографии, закрытых данных, нарушении авторских прав и т.п.). Еще бы час простоя, и "Одноклассники" явно запустили бы ехидную рекламу о том, что надо переходить к нам - "мы всегда работаем" или что-то в этом роде. В-третьих,совершенно невнятное объяснение произошедшего. Владислав Цыплухин, руководитель пресс-службы «ВКонтакте», конечно, молодец, что ведет твиттер, где написал о том, что все не работает явно не из-за диверсии, а "из-за аварии на 35-й подстанции «Ленэнерго". Но его отговорка в том, что «часть серверов при переходе на дизель была перезагружена, сейчас все вернется». Учитывая тот факт, что другой официальной информации, по сути, нет, предположим, что могло случится. Из незыблемых фактов - это явно не диверсия, и это не проблемы с электропитанием.

За последние три года я посетил несколько десятков ЦОДов и наблюдал порой маниакальную страсть ИТ-шников к перестраховке: шутка о том, что при строительстве таких объектов предусматривается даже ядерная бомбардировка, на руководителя крупного проекта не произведет никакого эффекта - у него может быть план и покруче.

Во-первых, батареи "держат" не только всю нагрузку серверной группы, кондиционеры, систему безопасности, связь, а также систему видеонаблюдения, но и имеют запас по мощности: мало кто ставит этот показатель "впритык".

Во-вторых, аккумуляторы, находящиеся в ЦОДах, обычно держат нагрузку как минимум 30-40 минут, чтобы дать возможность запустить генератор. Причем, на его старт требуется 60-120 секунд. "Я не доверяю этим лампочкам и переключателям, - как-то сказал мне один руководитель ЦОДа в возрасте, бывший офицер. - Если выключится питание, я сам добегу до генератора и пну его, чтобы он заработал".

В-третьих, в особо значимых ЦОДах ставят не один генератор, а два и самый-самый главный ИТ-шник часто вылезает из своего удобного кресла для того, чтобы зайти посмотреть визуально уровень топлива в баках. "Это меня успокаивает, - рассказывал мне еще один руководитель крупного ЦОДа, - временами кошмары снятся о том, что все выключится из-за жары или "броска по питанию". Ну я и спускаюсь в подвал врубить генераторы в тестовом режиме". Все суеверны. Делается это регулярно и топлива никто не жалеет: на специальной панели сразу видно за сколько такой генератор разгоняется в боевой режим и какую мощность может обеспечить. Кстати, кроме бака для автономной работы, у большинства подобных проектов есть возможность подключать бензовозы для загрузки топлива "с колес" (изящную схему для этого видел в ЦОДе, расположенном за 200 метров от Кремля) или внешние генераторы для работы напрямую.

В-четвертых, энерговводы - это святое для любого эксплуатанта ЦОДа, особенно того, на котором "держится половина РУнета", как любят утверждать сами сотрудники "ВКонтакте". Их должно быть минимум два, а то и три (в одном ЦОДе, где я был, было смонтировано аж пять мест под энерговводы, но использовалось пока только три) и от различных поставщиков электроэнергии. Причем входить в ЦОД физически они должны по-разному - как можно дальше друг от друга.

В-пятых, система охлаждения. Чисто теоретически, именно эта группа могла организовать слишком мощный забор питания из-за жары. Но обычно их планируют с запасом, как и аккумуляторы, да и сами помещения ЦОДов находятся явно не в стеклянных витринах, обеспечивающих быстрый и сильный нагрев помещений: часто это толстые стены даже без окон, первый или полуподвальный этаж, где температура примерно стабильна круглый год и поддерживать ее не сложно.

Итого, проблемы, которые могли возникнуть у ЦОДа социальной сети "ВКонтакте":

  1. При переключении с одного ввода питания на другой произошел выход из строя какой-то части элементов питания - давно не тестировали, брак самих элементов, неправильное подключение и т.д.;
  2. Отключились оба ввода питания (один по аварии, второй - по широкому спектру причин: от неуплаты до "технического перерыва) вкупе с поздним стартом генератора, из-за чего нагрузку на бататери снижали путем отключения второстепенных модулей и серверов - банально не залили горючку, давно не тестировали на старт, не сработала автоматика, не смогли найти ручной пуск быстро и т.д.;
  3. Мог выйти из строя не сам ЦОД системы, а обрушиться канал связи или авария с электричеством была именно у провайдера связи, но тогда все должно было перейти на резерв, обычно он N+1;
  4. Из-за жары могла "поплыть" система охлаждения, что привело к перегреву и временному выключению какого-либо количества серверов - ситуация еще более редкая, чем три вышеперечисленных варианта;
  5. Самые банальные проблемы - "вышибание" распределительного щита при переключении с одного ввода электропитания на резервный, рукастый "джамшут" с болгаркой, который при "регламентных работах", к примеру, монтажу решетки для нескольких особо доверенных стоек "выпилил насяльника вот здесь желоб, а лишние провода убрал". Кроме того, сюда запишем проблемы технического порядка - часто кабели энергопитания может быть и идут от разных поставщиков, но входят в ЦОД, в нарушение правил, а рядом так и страдают.
22 комментариев
Оставлять комментарии могут только авторизованные пользователи
Robot_NagNews
Robot_NagNews

Материал:

Авария социальной сети "ВКонтакте" на несколько часов 25-го июля 2010 года, которая объединяет более 80 млн. пользователей, слишком интересна, чтобы мы ее не заметили.

 

Полный текст

Гость Daedal
Гость Daedal

Ниочём статья... даже не дотягивает до уровня "лишь бы что-то было"

Не понятно зачем это писать.

Гость telecombloger
Гость telecombloger

В подавляющем кол-ве ЦОД, батареи при полной нагрузке держат не более 10-15 минут, ну ни как не 40.

Первый вариант Вашего предположения наиболее вероятен.

Гость Яха
Гость Яха

вобще тупость какую-то написали!!

Гость Мария
Гость Мария

А у меня контакт до сих пор не работает...Пишут что в течении 12 часов всё восстановится,прошло уже больше а до сих пор это же сообщение

Гость Иван
Гость Иван

Спасибо за статью, увлекательно описана система резервировного питания в ЦОД, мне, как человеку не компетентному в этом, было интересно.

Гость жора
Гость жора

>ниочём статья...

>тупость какую-то написали!!

 

у вконтактеров батхёрт =)

 

мне, как и Ивану, было интересно узнать что-то новое

Гость Alamo
Гость Alamo

гнать таких копирайтеров из штата, такой бред не должен в топе быть

Гость МАРИШЕЧКА
Гость МАРИШЕЧКА

ФУ... ЧТО- ТО МНЕ КАК- ТО НЕ ПОНРАВИЛОСЬ!!!

Гость мишаня сучков
Гость мишаня сучков

Сервер крякнул вот и всё ,жакеры атоковали ,Может просто журнал хакер вышел новый с описанием как взломать ВКОНТАКТЕ.А оборудование всегда не причём ,так как проще сослаться на оборудование чем признать не зацищённость от хакеров этого сайта.Сам пробовал ломать чего-то получалось чего-то нет.