vk_logo twitter_logo facebook_logo googleplus_logo youtube_logo telegram_logo telegram_logo

2U ночного ужаса (конкурс) 9

Дата публикации: 17.02.2011
Количество просмотров: 11081
Автор:

Преамбула

Было это достаточно давно. Трудился я в одной веселой компании. Была поставлена задача по модернизации одной стойки. На узлах всё резервируется как минимум 1+1, ибо перерыв в предоставлении сервиса приносит многомиллионные убытки. Работы предварительно согласуются до уровня тех. директора, вероятность аварийного простоя менее 0,001% в год. Если вдруг не обойтись без «обрыва связи», работы проводились в окне минимальной нагрузки, с 04-00 до 04-30 +- 5-10 мин.

Фабула

Поэтому стратегия модернизации стойки была проста как мычание:

  1. Покупаем аналогичную, но более мощную стойку;
  2. Монтируем новую стойку;
  3. Не торопясь, по ночам, силами дежурной смены переносим нагрузку со старой стойки на новую;
  4. Демонтируем старое оборудование и отправляем его на склад;
  5. Затем, старую стойку отправляем в регион, где мощность этого оборудования будет востребована.

Данная схема ротации и использования оборудования прошла многолетний, даже многовековой, опыт в связи. Одним словом штатная работа. Ничего не предвещало проблем. Пока не вмешался Ethernet.

Пара слов о стойке: шкаф 48U из них 20U + 20U это собственно железка, 5U распределение питания, и 2U наши герои, я не побоюсь этого слова «бойцы невидимого фронта, ужас, летящий на крыльях ночи», два L2 коммутатора одной широко известной китайской фирмы. Архитектурной особенностью данной стойки является то, что обмен коммерческим трафиком и менеджмент идет через эти коммутаторы. Естественно, в разных VLAN-ах.

Монтаж и настройку стойки производили специально обученные, полностью сертифицированные специалисты. Обычно монтируем «подобное к подобному», но особенностью данного монтажа было то, что новая стойка была установлена «во второй очереди» автозала, т.к. в «первой» места уже не было.

Итак 2:30 глубокая ночь, на мониторах ЦУСа начались массовые отказы в оборудовании, потери линков, потери мониторинга оборудования. 2:40 потери коммерческого трафика.

Смена ЦУСа в глубокой коме, штатные действия не помогают. Три ночи, начальник смены ЦУСа объявляет «общий сбор» ведущих специалистов. Пока собираемся, добираемся то-се.

Софт O&M умер.

Армагидец.ц.ц.ц…..

Принимается решение восстанавливать базовое функционирование сети. По питанию вырубается почти все. Запускаем минимальный набор оборудования. Все ок, понемногу расширяем список работающих шкафов. Все ок…. Запущенно 98% железок. Полет нормальный…. Четыре утра, все работает, 100% железок в сети, проблем нет, но народ не расходится, ждем глюк….

Восемь утра, приходят монтажеры и минут через 10 начинают возмущаться, почему собственно их стойка стоит холодная? Хм….. в ответ «ну дык…. Включите». Монтажеры уходят…. Минут через 5 начались знакомые симптомы, перед глазами появился призрак очередного армагидеца. С радостным топотом, народ бежит бить крайних. ;)

Финал

В ходе расследования инцидента выяснилось, что виной всего армагидеца была простая времянка UTP5, которая была прокинута между двумя шкафами на время переноса нагрузки. Так как стойки были в разных залах, времянку ночью дверью и передавило. Передавленная времянка положила STP свичей, расположенных в стойке. Распространение STP шторма привело к перерывам в обслуживании и не стабильной работе сети, порядка двух с половиной часов. По результатам было особое распоряжение на счет использования времянок, и изменение архитектуры сети, направленное на расширение L3 железок.

Так-то, аккуратность наше ФСЁ!!!

От редакции: если у вас есть чем поделиться с коллегами по отрасли, приглашаем к сотрудничеству
Ссылка на материал, для размещения на сторонних ресурсах
/news/newsline/20188/2u-nochnogo-ujasa-konkurs-.html

Обсудить на форуме

Оставлять комментарии могут только зарегистрированные пользователи

Зарегистрироваться