1. Новости
Заметки пользователей
17.02.2011 08:56
11750
10
17.02.2011 08:56
PDF
11750
10

2U ночного ужаса (конкурс)

Автор: Serg

Преамбула

Было это достаточно давно. Трудился я в одной веселой компании. Была поставлена задача по модернизации одной стойки. На узлах всё резервируется как минимум 1+1, ибо перерыв в предоставлении сервиса приносит многомиллионные убытки. Работы предварительно согласуются до уровня тех. директора, вероятность аварийного простоя менее 0,001% в год. Если вдруг не обойтись без «обрыва связи», работы проводились в окне минимальной нагрузки, с 04-00 до 04-30 +- 5-10 мин.

Фабула

Поэтому стратегия модернизации стойки была проста как мычание:

  1. Покупаем аналогичную, но более мощную стойку;
  2. Монтируем новую стойку;
  3. Не торопясь, по ночам, силами дежурной смены переносим нагрузку со старой стойки на новую;
  4. Демонтируем старое оборудование и отправляем его на склад;
  5. Затем, старую стойку отправляем в регион, где мощность этого оборудования будет востребована.

Данная схема ротации и использования оборудования прошла многолетний, даже многовековой, опыт в связи. Одним словом штатная работа. Ничего не предвещало проблем. Пока не вмешался Ethernet.

Пара слов о стойке: шкаф 48U из них 20U + 20U это собственно железка, 5U распределение питания, и 2U наши герои, я не побоюсь этого слова «бойцы невидимого фронта, ужас, летящий на крыльях ночи», два L2 коммутатора одной широко известной китайской фирмы. Архитектурной особенностью данной стойки является то, что обмен коммерческим трафиком и менеджмент идет через эти коммутаторы. Естественно, в разных VLAN-ах.

2U ночного ужаса (конкурс)

Монтаж и настройку стойки производили специально обученные, полностью сертифицированные специалисты. Обычно монтируем «подобное к подобному», но особенностью данного монтажа было то, что новая стойка была установлена «во второй очереди» автозала, т.к. в «первой» места уже не было.

Итак 2:30 глубокая ночь, на мониторах ЦУСа начались массовые отказы в оборудовании, потери линков, потери мониторинга оборудования. 2:40 потери коммерческого трафика.

Смена ЦУСа в глубокой коме, штатные действия не помогают. Три ночи, начальник смены ЦУСа объявляет «общий сбор» ведущих специалистов. Пока собираемся, добираемся то-се.

Софт O&M умер.

Армагидец.ц.ц.ц…..

Принимается решение восстанавливать базовое функционирование сети. По питанию вырубается почти все. Запускаем минимальный набор оборудования. Все ок, понемногу расширяем список работающих шкафов. Все ок…. Запущенно 98% железок. Полет нормальный…. Четыре утра, все работает, 100% железок в сети, проблем нет, но народ не расходится, ждем глюк….

Восемь утра, приходят монтажеры и минут через 10 начинают возмущаться, почему собственно их стойка стоит холодная? Хм….. в ответ «ну дык…. Включите». Монтажеры уходят…. Минут через 5 начались знакомые симптомы, перед глазами появился призрак очередного армагидеца. С радостным топотом, народ бежит бить крайних. ;)

Финал

В ходе расследования инцидента выяснилось, что виной всего армагидеца была простая времянка UTP5, которая была прокинута между двумя шкафами на время переноса нагрузки. Так как стойки были в разных залах, времянку ночью дверью и передавило. Передавленная времянка положила STP свичей, расположенных в стойке. Распространение STP шторма привело к перерывам в обслуживании и не стабильной работе сети, порядка двух с половиной часов. По результатам было особое распоряжение на счет использования времянок, и изменение архитектуры сети, направленное на расширение L3 железок.

Так-то, аккуратность наше ФСЁ!!!

10 комментариев
Оставлять комментарии могут только авторизованные пользователи
Robot_NagNews
Robot_NagNews

Материал:

Было это достаточно давно. Трудился я в одной веселой компании. Была поставлена задача по модернизации одной стойки. На узлах всё резервируется как минимум 1+1, ибо перерыв в предоставлении сервиса приносит многомиллионные убытки. Работы предварительно согласуются до уровня тех. директора, вероятность аварийного простоя менее 0,001% в год. Если вдруг не обойтись без «обрыва связи», работы проводились в окне минимальной нагрузки, с 04-00 до 04-30 +- 5-10 мин.

 

Полный текст

Гость y0ma
Гость y0ma

халтура в чёмто малом фсегда гробит наработки в чёмта большом..

sandrerio
sandrerio

Дааа уж. Знакомо, только не в таких масштабах.

edo
edo

хм... а чем тут L3 поможет?

gfsergey
gfsergey

хм... а чем тут L3 поможет?

видимо в дроблении L2 домена.

Гость alex
Гость alex

"Дурная голова ногам покоя не дает" (с) народное.

STP - зло! Резерирование надо делать на L2 с помощью LACP, на L3 динамической маршрутизацией RIP/OSPF/BGP.

Engineer62
Engineer62

1. Нормальный свич не уронил бы всю сеть.

2. Как можно не увидеть времянку. Я по 100 раз все проверяю прежде чем что-то переключить.

3. Многомиллионные убытки, а свичи китайские?

Гость stateful
Гость stateful

А что за свичи? Huawei? ZTE? DCN?

Korj
Korj

А собственно STP не на бумаге, а в живую для этого и предназначен - положить большую качественно построенную разграниченную VLAN-ами сеть. Реальная полезность технологии близка к нулю, по уровню вреда - равных нет.

А времянки в дверь совать, причем не озаботиться, чтобы её физически нельзя было пережать - как работали, так и получили - нечего бандерлогов пускать туда, где "миллионные убытки". И что, в ДЦ нет штатного пути прокладки кабеля?! даже если прямого пути нет - проложите хоть 5км оптическую времянку, у вас же там "миллионы" - лень?! С таким подходом говорить про "миллионы" потерь - либо преувеличение, либо давно разориться должны были.

Гость DM
Гость DM

***..во видимо "специально обученные, полностью сертифицированные специалисты" сертифицированные, ага. А свои косяки переложим на "Китайское железо", вот дебилы. А про STP вообще ппц. Если бы раюотали в телекоме а не сраном датакоме то 3 шкуры стоило бы с вас снять