Преамбула
Было это достаточно давно. Трудился я в одной веселой компании. Была поставлена задача по модернизации одной стойки. На узлах всё резервируется как минимум 1+1, ибо перерыв в предоставлении сервиса приносит многомиллионные убытки. Работы предварительно согласуются до уровня тех. директора, вероятность аварийного простоя менее 0,001% в год. Если вдруг не обойтись без «обрыва связи», работы проводились в окне минимальной нагрузки, с 04-00 до 04-30 +- 5-10 мин.
Фабула
Поэтому стратегия модернизации стойки была проста как мычание:
Данная схема ротации и использования оборудования прошла многолетний, даже многовековой, опыт в связи. Одним словом штатная работа. Ничего не предвещало проблем. Пока не вмешался Ethernet.
Пара слов о стойке: шкаф 48U из них 20U + 20U это собственно железка, 5U распределение питания, и 2U наши герои, я не побоюсь этого слова «бойцы невидимого фронта, ужас, летящий на крыльях ночи», два L2 коммутатора одной широко известной китайской фирмы. Архитектурной особенностью данной стойки является то, что обмен коммерческим трафиком и менеджмент идет через эти коммутаторы. Естественно, в разных VLAN-ах.
Монтаж и настройку стойки производили специально обученные, полностью сертифицированные специалисты. Обычно монтируем «подобное к подобному», но особенностью данного монтажа было то, что новая стойка была установлена «во второй очереди» автозала, т.к. в «первой» места уже не было.
Итак 2:30 глубокая ночь, на мониторах ЦУСа начались массовые отказы в оборудовании, потери линков, потери мониторинга оборудования. 2:40 потери коммерческого трафика.
Смена ЦУСа в глубокой коме, штатные действия не помогают. Три ночи, начальник смены ЦУСа объявляет «общий сбор» ведущих специалистов. Пока собираемся, добираемся то-се.
Софт O&M умер.
Армагидец.ц.ц.ц…..
Принимается решение восстанавливать базовое функционирование сети. По питанию вырубается почти все. Запускаем минимальный набор оборудования. Все ок, понемногу расширяем список работающих шкафов. Все ок…. Запущенно 98% железок. Полет нормальный…. Четыре утра, все работает, 100% железок в сети, проблем нет, но народ не расходится, ждем глюк….
Восемь утра, приходят монтажеры и минут через 10 начинают возмущаться, почему собственно их стойка стоит холодная? Хм….. в ответ «ну дык…. Включите». Монтажеры уходят…. Минут через 5 начались знакомые симптомы, перед глазами появился призрак очередного армагидеца. С радостным топотом, народ бежит бить крайних. ;)
Финал
В ходе расследования инцидента выяснилось, что виной всего армагидеца была простая времянка UTP5, которая была прокинута между двумя шкафами на время переноса нагрузки. Так как стойки были в разных залах, времянку ночью дверью и передавило. Передавленная времянка положила STP свичей, расположенных в стойке. Распространение STP шторма привело к перерывам в обслуживании и не стабильной работе сети, порядка двух с половиной часов. По результатам было особое распоряжение на счет использования времянок, и изменение архитектуры сети, направленное на расширение L3 железок.
Так-то, аккуратность наше ФСЁ!!!
Материал:
Было это достаточно давно. Трудился я в одной веселой компании. Была поставлена задача по модернизации одной стойки. На узлах всё резервируется как минимум 1+1, ибо перерыв в предоставлении сервиса приносит многомиллионные убытки. Работы предварительно согласуются до уровня тех. директора, вероятность аварийного простоя менее 0,001% в год. Если вдруг не обойтись без «обрыва связи», работы проводились в окне минимальной нагрузки, с 04-00 до 04-30 +- 5-10 мин.
Полный текст
халтура в чёмто малом фсегда гробит наработки в чёмта большом..
Дааа уж. Знакомо, только не в таких масштабах.
хм... а чем тут L3 поможет?
видимо в дроблении L2 домена.
"Дурная голова ногам покоя не дает" (с) народное.
STP - зло! Резерирование надо делать на L2 с помощью LACP, на L3 динамической маршрутизацией RIP/OSPF/BGP.
1. Нормальный свич не уронил бы всю сеть.
2. Как можно не увидеть времянку. Я по 100 раз все проверяю прежде чем что-то переключить.
3. Многомиллионные убытки, а свичи китайские?
А что за свичи? Huawei? ZTE? DCN?
А собственно STP не на бумаге, а в живую для этого и предназначен - положить большую качественно построенную разграниченную VLAN-ами сеть. Реальная полезность технологии близка к нулю, по уровню вреда - равных нет.
А времянки в дверь совать, причем не озаботиться, чтобы её физически нельзя было пережать - как работали, так и получили - нечего бандерлогов пускать туда, где "миллионные убытки". И что, в ДЦ нет штатного пути прокладки кабеля?! даже если прямого пути нет - проложите хоть 5км оптическую времянку, у вас же там "миллионы" - лень?! С таким подходом говорить про "миллионы" потерь - либо преувеличение, либо давно разориться должны были.
***..во видимо "специально обученные, полностью сертифицированные специалисты" сертифицированные, ага. А свои косяки переложим на "Китайское железо", вот дебилы. А про STP вообще ппц. Если бы раюотали в телекоме а не сраном датакоме то 3 шкуры стоило бы с вас снять