vk_logo twitter_logo facebook_logo googleplus_logo youtube_logo telegram_logo telegram_logo

2U ночного ужаса (конкурс) 10

Дата публикации: 17.02.2011
Количество просмотров: 10989
Автор:

Преамбула

Было это достаточно давно. Трудился я в одной веселой компании. Была поставлена задача по модернизации одной стойки. На узлах всё резервируется как минимум 1+1, ибо перерыв в предоставлении сервиса приносит многомиллионные убытки. Работы предварительно согласуются до уровня тех. директора, вероятность аварийного простоя менее 0,001% в год. Если вдруг не обойтись без «обрыва связи», работы проводились в окне минимальной нагрузки, с 04-00 до 04-30 +- 5-10 мин.

Фабула

Поэтому стратегия модернизации стойки была проста как мычание:

  1. Покупаем аналогичную, но более мощную стойку;
  2. Монтируем новую стойку;
  3. Не торопясь, по ночам, силами дежурной смены переносим нагрузку со старой стойки на новую;
  4. Демонтируем старое оборудование и отправляем его на склад;
  5. Затем, старую стойку отправляем в регион, где мощность этого оборудования будет востребована.

Данная схема ротации и использования оборудования прошла многолетний, даже многовековой, опыт в связи. Одним словом штатная работа. Ничего не предвещало проблем. Пока не вмешался Ethernet.

Пара слов о стойке: шкаф 48U из них 20U + 20U это собственно железка, 5U распределение питания, и 2U наши герои, я не побоюсь этого слова «бойцы невидимого фронта, ужас, летящий на крыльях ночи», два L2 коммутатора одной широко известной китайской фирмы. Архитектурной особенностью данной стойки является то, что обмен коммерческим трафиком и менеджмент идет через эти коммутаторы. Естественно, в разных VLAN-ах.

Монтаж и настройку стойки производили специально обученные, полностью сертифицированные специалисты. Обычно монтируем «подобное к подобному», но особенностью данного монтажа было то, что новая стойка была установлена «во второй очереди» автозала, т.к. в «первой» места уже не было.

Итак 2:30 глубокая ночь, на мониторах ЦУСа начались массовые отказы в оборудовании, потери линков, потери мониторинга оборудования. 2:40 потери коммерческого трафика.

Смена ЦУСа в глубокой коме, штатные действия не помогают. Три ночи, начальник смены ЦУСа объявляет «общий сбор» ведущих специалистов. Пока собираемся, добираемся то-се.

Софт O&M умер.

Армагидец.ц.ц.ц…..

Принимается решение восстанавливать базовое функционирование сети. По питанию вырубается почти все. Запускаем минимальный набор оборудования. Все ок, понемногу расширяем список работающих шкафов. Все ок…. Запущенно 98% железок. Полет нормальный…. Четыре утра, все работает, 100% железок в сети, проблем нет, но народ не расходится, ждем глюк….

Восемь утра, приходят монтажеры и минут через 10 начинают возмущаться, почему собственно их стойка стоит холодная? Хм….. в ответ «ну дык…. Включите». Монтажеры уходят…. Минут через 5 начались знакомые симптомы, перед глазами появился призрак очередного армагидеца. С радостным топотом, народ бежит бить крайних. ;)

Финал

В ходе расследования инцидента выяснилось, что виной всего армагидеца была простая времянка UTP5, которая была прокинута между двумя шкафами на время переноса нагрузки. Так как стойки были в разных залах, времянку ночью дверью и передавило. Передавленная времянка положила STP свичей, расположенных в стойке. Распространение STP шторма привело к перерывам в обслуживании и не стабильной работе сети, порядка двух с половиной часов. По результатам было особое распоряжение на счет использования времянок, и изменение архитектуры сети, направленное на расширение L3 железок.

Так-то, аккуратность наше ФСЁ!!!

От редакции: если у вас есть чем поделиться с коллегами по отрасли, приглашаем к сотрудничеству
Ссылка на материал, для размещения на сторонних ресурсах
/news/newsline/20188/2u-nochnogo-ujasa-konkurs-.html

Комментарии:(10) комментировать

17 февраля 2011 - 13:04
Robot_NagNews:
#1

Материал:
Было это достаточно давно. Трудился я в одной веселой компании. Была поставлена задача по модернизации одной стойки. На узлах всё резервируется как минимум 1+1, ибо перерыв в предоставлении сервиса приносит многомиллионные убытки. Работы предварительно согласуются до уровня тех. директора, вероятность аварийного простоя менее 0,001% в год. Если вдруг не обойтись без «обрыва связи», работы проводились в окне минимальной нагрузки, с 04-00 до 04-30 +- 5-10 мин.

Полный текст


17 февраля 2011 - 13:04
Гость_y0ma_:
#2

халтура в чёмто малом фсегда гробит наработки в чёмта большом..


18 февраля 2011 - 3:12
sandrerio:
#3

Дааа уж. Знакомо, только не в таких масштабах.


18 февраля 2011 - 3:27
edo:
#4

хм... а чем тут L3 поможет?


18 февраля 2011 - 8:07
gfsergey:
#5

Просмотр сообщенияedo (18 февраля 2011 - 03:27) писал:

хм... а чем тут L3 поможет?

видимо в дроблении L2 домена.


18 февраля 2011 - 12:26
Гость_alex_:
#6

"Дурная голова ногам покоя не дает" (с) народное.
STP - зло! Резерирование надо делать на L2 с помощью LACP, на L3 динамической маршрутизацией RIP/OSPF/BGP.


18 февраля 2011 - 13:32
Engineer62:
#7

1. Нормальный свич не уронил бы всю сеть.
2. Как можно не увидеть времянку. Я по 100 раз все проверяю прежде чем что-то переключить.
3. Многомиллионные убытки, а свичи китайские?


18 февраля 2011 - 22:26
Гость_stateful_:
#8

А что за свичи? Huawei? ZTE? DCN?


21 февраля 2011 - 2:47
Korj:
#9

А собственно STP не на бумаге, а в живую для этого и предназначен - положить большую качественно построенную разграниченную VLAN-ами сеть. Реальная полезность технологии близка к нулю, по уровню вреда - равных нет.
А времянки в дверь совать, причем не озаботиться, чтобы её физически нельзя было пережать - как работали, так и получили - нечего бандерлогов пускать туда, где "миллионные убытки". И что, в ДЦ нет штатного пути прокладки кабеля?! даже если прямого пути нет - проложите хоть 5км оптическую времянку, у вас же там "миллионы" - лень?! С таким подходом говорить про "миллионы" потерь - либо преувеличение, либо давно разориться должны были.


19 марта 2011 - 16:02
Гость_DM_:
#10

хуе..во видимо "специально обученные, полностью сертифицированные специалисты" сертифицированные, ага. А свои косяки переложим на "Китайское железо", вот дебилы. А про STP вообще ппц. Если бы раюотали в телекоме а не сраном датакоме то 3 шкуры стоило бы с вас снять


Обсудить на форуме

Оставлять комментарии могут только зарегистрированные пользователи

Зарегистрироваться