vk_logo twitter_logo facebook_logo googleplus_logo youtube_logo telegram_logo telegram_logo

Странное падение "ВКонтакте" 22

Дата публикации: 27.07.2010
Количество просмотров: 18445

Авария социальной сети "ВКонтакте" на несколько часов 25 го июля 2010 года, которая объединяет более 80 млн. пользователей, слишком интересна,чтобы мы ее не заметили.

Во-первых, серверы были недоступны с 17-00 до 19-00 (полностью работа Интернет-ресурса была возобновлена примерно в 20-30): даже при том, что это соц.сетка, а не банк, явно должны были пострадать все технические руководители проекта. Во-вторых, репутационные потери велики - блоггеры выдавали «нагора» различные истории об обысках в офисах «ВКонтакте», и даже об изъятии серверов Интернет-ресурса (якобы в рамках уголовных дел о распространении порнографии, закрытых данных, нарушении авторских прав и т.п.). Еще бы час простоя, и "Одноклассники" явно запустили бы ехидную рекламу о том, что надо переходить к нам - "мы всегда работаем" или что-то в этом роде. В-третьих,совершенно невнятное объяснение произошедшего. Владислав Цыплухин, руководитель пресс-службы «ВКонтакте», конечно, молодец, что ведет твиттер, где написал о том, что все не работает явно не из-за диверсии, а "из-за аварии на 35-й подстанции «Ленэнерго". Но его отговорка в том, что «часть серверов при переходе на дизель была перезагружена, сейчас все вернется». Учитывая тот факт, что другой официальной информации, по сути, нет, предположим, что могло случится. Из незыблемых фактов - это явно не диверсия, и это не проблемы с электропитанием.

За последние три года я посетил несколько десятков ЦОДов и наблюдал порой маниакальную страсть ИТ-шников к перестраховке: шутка о том, что при строительстве таких объектов предусматривается даже ядерная бомбардировка, на руководителя крупного проекта не произведет никакого эффекта - у него может быть план и покруче.

Во-первых, батареи "держат" не только всю нагрузку серверной группы, кондиционеры, систему безопасности, связь, а также систему видеонаблюдения, но и имеют запас по мощности: мало кто ставит этот показатель "впритык".

Во-вторых, аккумуляторы, находящиеся в ЦОДах, обычно держат нагрузку как минимум 30-40 минут, чтобы дать возможность запустить генератор. Причем, на его старт требуется 60-120 секунд. "Я не доверяю этим лампочкам и переключателям, - как-то сказал мне один руководитель ЦОДа в возрасте, бывший офицер. - Если выключится питание, я сам добегу до генератора и пну его, чтобы он заработал".

В-третьих, в особо значимых ЦОДах ставят не один генератор, а два и самый-самый главный ИТ-шник часто вылезает из своего удобного кресла для того, чтобы зайти посмотреть визуально уровень топлива в баках. "Это меня успокаивает, - рассказывал мне еще один руководитель крупного ЦОДа, - временами кошмары снятся о том, что все выключится из-за жары или "броска по питанию". Ну я и спускаюсь в подвал врубить генераторы в тестовом режиме". Все суеверны. Делается это регулярно и топлива никто не жалеет: на специальной панели сразу видно за сколько такой генератор разгоняется в боевой режим и какую мощность может обеспечить. Кстати, кроме бака для автономной работы, у большинства подобных проектов есть возможность подключать бензовозы для загрузки топлива "с колес" (изящную схему для этого видел в ЦОДе, расположенном за 200 метров от Кремля) или внешние генераторы для работы напрямую.

В-четвертых, энерговводы - это святое для любого эксплуатанта ЦОДа, особенно того, на котором "держится половина РУнета", как любят утверждать сами сотрудники "ВКонтакте". Их должно быть минимум два, а то и три (в одном ЦОДе, где я был, было смонтировано аж пять мест под энерговводы, но использовалось пока только три) и от различных поставщиков электроэнергии. Причем входить в ЦОД физически они должны по-разному - как можно дальше друг от друга.

В-пятых, система охлаждения. Чисто теоретически, именно эта группа могла организовать слишком мощный забор питания из-за жары. Но обычно их планируют с запасом, как и аккумуляторы, да и сами помещения ЦОДов находятся явно не в стеклянных витринах, обеспечивающих быстрый и сильный нагрев помещений: часто это толстые стены даже без окон, первый или полуподвальный этаж, где температура примерно стабильна круглый год и поддерживать ее не сложно.

Итого, проблемы, которые могли возникнуть у ЦОДа социальной сети "ВКонтакте":

  1. При переключении с одного ввода питания на другой произошел выход из строя какой-то части элементов питания - давно не тестировали, брак самих элементов, неправильное подключение и т.д.;
  2. Отключились оба ввода питания (один по аварии, второй - по широкому спектру причин: от неуплаты до "технического перерыва) вкупе с поздним стартом генератора, из-за чего нагрузку на бататери снижали путем отключения второстепенных модулей и серверов - банально не залили горючку, давно не тестировали на старт, не сработала автоматика, не смогли найти ручной пуск быстро и т.д.;
  3. Мог выйти из строя не сам ЦОД системы, а обрушиться канал связи или авария с электричеством была именно у провайдера связи, но тогда все должно было перейти на резерв, обычно он N+1;
  4. Из-за жары могла "поплыть" система охлаждения, что привело к перегреву и временному выключению какого-либо количества серверов - ситуация еще более редкая, чем три вышеперечисленных варианта;
  5. Самые банальные проблемы - "вышибание" распределительного щита при переключении с одного ввода электропитания на резервный, рукастый "джамшут" с болгаркой, который при "регламентных работах", к примеру, монтажу решетки для нескольких особо доверенных стоек "выпилил насяльника вот здесь желоб, а лишние провода убрал". Кроме того, сюда запишем проблемы технического порядка - часто кабели энергопитания может быть и идут от разных поставщиков, но входят в ЦОД, в нарушение правил, а рядом так и страдают.
От редакции: если у вас есть чем поделиться с коллегами по отрасли, приглашаем к сотрудничеству
Ссылка на материал, для размещения на сторонних ресурсах
/news/newsline/19347/strannoe-padenie-vkontakte-.html

Комментарии:(22) комментировать

27 июля 2010 - 10:34
Robot_NagNews:
#1

Материал:
Авария социальной сети "ВКонтакте" на несколько часов 25-го июля 2010 года, которая объединяет более 80 млн. пользователей, слишком интересна, чтобы мы ее не заметили.

Полный текст


27 июля 2010 - 10:34
Гость_Daedal_:
#2

Ниочём статья... даже не дотягивает до уровня "лишь бы что-то было"
Не понятно зачем это писать.


27 июля 2010 - 10:41
Гость_telecombloger_:
#3

В подавляющем кол-ве ЦОД, батареи при полной нагрузке держат не более 10-15 минут, ну ни как не 40.
Первый вариант Вашего предположения наиболее вероятен.


27 июля 2010 - 10:55
Гость_Яха_:
#4

вобще тупость какую-то написали!!


27 июля 2010 - 11:30
Гость_Мария_:
#5

А у меня контакт до сих пор не работает...Пишут что в течении 12 часов всё восстановится,прошло уже больше а до сих пор это же сообщение


27 июля 2010 - 11:38
Гость_Иван_:
#6

Спасибо за статью, увлекательно описана система резервировного питания в ЦОД, мне, как человеку не компетентному в этом, было интересно.


27 июля 2010 - 13:04
Гость_жора_:
#7

>ниочём статья...
>тупость какую-то написали!!

у вконтактеров батхёрт =)

мне, как и Ивану, было интересно узнать что-то новое


27 июля 2010 - 13:22
Гость_Alamo_:
#8

гнать таких копирайтеров из штата, такой бред не должен в топе быть


27 июля 2010 - 13:37
Гость_МАРИШЕЧКА_:
#9

ФУ... ЧТО- ТО МНЕ КАК- ТО НЕ ПОНРАВИЛОСЬ!!!


27 июля 2010 - 13:54
Гость_мишаня сучков_:
#10

Сервер крякнул вот и всё ,жакеры атоковали ,Может просто журнал хакер вышел новый с описанием как взломать ВКОНТАКТЕ.А оборудование всегда не причём ,так как проще сослаться на оборудование чем признать не зацищённость от хакеров этого сайта.Сам пробовал ломать чего-то получалось чего-то нет.


Обсудить на форуме

Оставлять комментарии могут только зарегистрированные пользователи

Зарегистрироваться