vk_logo twitter_logo facebook_logo youtube_logo telegram_logo telegram_logo

Фальшивый блеск и нищета удивительного дата-центра 35

Дата публикации: Неопубликован
Количество просмотров: 34496
Автор:

Рынок хостинга в России развивается. Становится все больше новых услуг, строятся крупные дата-центры по образцу и стандартам передовых европейских компаний. Как и в Европе, дата-центры классифицируются по уровню надежности и отказоустойчивости следующим образом:

  • Tier I - базовая инфраструктура без резервирования.
  • Tier II - инфраструктура с резервными мощностями.
  • Tier III - инфраструктура, поддерживающая параллельный ремонт.
  • Tier IV - отказоустойчивая инфраструктура.


Сейчас в России больше всего распространены дата-центры категории Tier III. К их числу, например, относятся такие известные компании, как Linxdatacenter, Миран, Selectel и ряд других зарекомендовавших себя имен. 

На всякий случай, разрешите напомнить, что заканчивается второе десятилетие двадцать первого века и в массовом сознании дата-центр выглядит примерно так: 

В массовом сознании дата-центр выглядит примерно так

Однако, важно понимать, что в российских условиях не все, что обозначено красивым обозначением Tier III, действительно является таковым. Наш читатель поделился с нами историей о собственном опыте работы в одном небольшом дата-центре, который не стеснялся в рекламе обещать самый высокий уровень оказываемых услуг. 

Далее опишем ситуацию с его слов (и от первого лица).

О том, как я работал в дата-центре Tier III

В первую очередь хочу сказать вроде бы очевидную вещь: нельзя верить каждой рекламе в интернете. Тем более, если это реклама виртуальных и физических серверов, с сопутствующими услугами. Регулярные технические проблемы доступности вашего сервера или сайта – верный признак того, что нужно как можно быстрее менять поставщика услуг, пока ваши данные не исчезли бесследно, а вы не потеряли свои деньги и бизнес. 

И лучше всё-таки выбирать дата-центр из списка известных имен. Цены у таких компаний не слишком отличаются, но спокойствие за ваш бизнес будет гарантировано. Все остальные компании – это, как правило, в всевозможные реселлеры, реселлеры реселлеров и colocation серверов. Минусы работы с ними могут быть не столь очевидны, но, тем не менее, они существенны:

  • Во-первых, конкурентная стоимость услуг достигается за счет слабой инфраструктуры, что влечет за собой необратимые последствия именно для вашего проекта. 
  • Во-вторых, зачастую у таких компаний просто отсутствует собственная техническая поддержка, или сотрудники первой линии просто некомпетентны в сложных технических вопросах, поэтому многие запросы клиентов просто остаются без ответов.


С подобным проблемами мне приходилось сталкиваться не раз, и не два.

Я пришел на должность инженера технической поддержки и двухлетним опытом работы инженером в IT-отделе одной бюджетной организации. Я был полон энтузиазма расти в этой отрасли. Однако, после трех лет работы здесь мой пыл несколько угас.

Первым и самым серьезным нарушением в нашим дата-центре было отсутствие лицензионного софта как для клиентов, так и для сервисов компании. Моя позиция была в том, чтобы сразу уведомить клиента, что лицензии на Windows и прочее, мы не предоставляем. На рабочем месте я перешёл на Linux и новые сервисы старался разворачивать на Linux/Unix. Но исключения всё же были.

Возникали постоянные аварии, поломки, сбои, проблемы с сетью. Неподготовленная под нужды дата-центра инфраструктура – а это отсутствие резерва по электропитанию, охлаждению, сетевым каналам, вычислительным ресурсам и свободному месту на хранилищах, а также отказоустойчивости сервисов – приводила к постоянным проблемам у наших клиентов. Любая авария – это работа по восстановлению серверов от нескольких часов до нескольких суток. При этом, аварийные работы приходилось вести, отвечая на непрерывные сообщения и звонки клиентов.

Не было никаких регламентов на работы в случае аварии, практически не было никакого мониторинга, лишь с десяток триггеров в Zabbix на температуру. Кончилось место на хранилище виртуалок - сбой с потерей данных. Не все серверы забэкапились, нет места на том же бэкап-сервере, лежат ноды виртуализации - перегруз по CPU и памяти в кластере. Поднять сломанную VMFS своими силами, в случае отсутствия свободного места на ней, не всегда возможно вообще.

Охлаждение

Регулярные перегревы летом случались даже при включенных кондиционерах и приточной вентиляции. Размеры помещения не позволяли разместить оборудование по зонам, а потоки воздуха не оптимизировались. 

В корзинах с blade-серверами от пыли вылетают подшипники на блоках вентиляторов. Они не ремонтопригодны. Без вентиляторов серверы после отключения не запускаются. Позиция руководства на все попытки обратить внимание на печальное состояние инфраструктуры, обычно выглядела примерно так : "Ну ты потыкай там".

Приточная вентиляция. Начало.
Приточная вентиляция. Начало.

Это не съёмки кино про Змея Горыныча, а тоже приточка.

Это не съёмки кино про Змея Горыныча, а тоже приточка.
Это не съёмки кино про Змея Горыныча, а тоже приточка.

Охлаждение производилось уличным воздухом и зимой и летом.

В приточной вентиляции из-за отсутствия фильтров повсюду пыль. Охлаждение помещеий и оборудования производилось просто уличным воздухом. И зимой, и летом.

Железо

В дата-центре использовалось железо, списанное в других дата-центрах, или привезенное из Китая. Клиентам ставились старые диски с "пробегом" 30-35 тысяч часов (примерно 10 тысяч часов за год непрерывной работы). Состояние соответствующее. Диски покупались самые дешёвые, которые не каждый бы взял даже для домашнего использования.

Состояние кабельной и стоек описать словами очень трудно. Просто смотрите.

Состояние кабельной и стоек описать словами очень трудно.

Состояние кабельной и стоек описать словами очень трудно.

Состояние кабельной и стоек описать словами очень трудно.

Состояние кабельной и стоек описать словами очень трудно.

Электроснабжение 

Электроснабжение на вводе старое. Как-то включил чайник – перегорела вставка на 100А и полностью отвалилась одна фаза. Разделения на бытовое и технологическое питание нет, поэтому отключилась и часть оборудования в машинном зале. АВР не сработал. На вопрос "почему?" получил вполне ожидаемый ответ: "Реле АВР управляется одной фазой и питание на ней не пропадало". 

Для включения единственного резерва - ДГУ - есть несколько минут, т.к. батарей в ИБП не хватает и время работы автономно – 3-4 минуты. Впрочем, тот ИБП потом и вовсе сгорел, и работает постоянно теперь в режиме bypass. Поэтому серверы при каждой аварии просто выключались.

Дизель-генератор не обслуживался: масло не менялось, аккумуляторы заряжались от случая к случаю, а напряжение на выходе не проверялось в принципе. Естественно, что и заводили ДГУ лишь в моменты аварии. Если, конечно, везло и он всё-таки заводился. Зимой генератор не прогревался. Зачем тратить соляру?

Дизель-генератор не обслуживался: масло не менялось, аккумуляторы заряжались от случая к случаю

Заводили ДГУ лишь в моменты аварии.

Сеть

Пассивные компоненты СКС также не выдерживают никакой критики. Все серверы подключены обычной витой парой, обжатой самой дешёвой обжимкой. Никаких патч-панелей нет вообще. Патч-корды присутствуют в небольшом количестве, и не покупаются. Никаких бирок и маркировок на кабелях. Большинство коммутаторов подключены медью, нагрузку не выдерживают. Постоянные жалобы на потери пакетов в нашей сети – норма. 

Пассивные компоненты СКС также не выдерживают никакой критики.

Топология сети не отслеживается, и нигде не задокументирована. Часть коммутаторов неуправляемые, что значительно затрудняет обнаружение сетевых проблем.


Топология сети не отслеживается, и нигде не задокументирована.

Например, при исходящей DDoS-атаке приходится отрубать каждый порт коммутатора и смотреть не прекратилась ли она, потом смотреть кто к тому порту подключен. Также трудно отслеживать коллизии IP-адресов. Разделения по VLAN для клиентов нет - каждый может атаковать другого прямо внутри сети в обход мониторинга (привет игровым серверам CS, Rust и т.п.)

У каких-то экономных бизнесменов тут живут сайты и целые бизнесы.

У каких-то экономных бизнесменов тут живут сайты и целые бизнесы.

У каких-то экономных бизнесменов тут живут сайты и целые бизнесы.

У каких-то экономных бизнесменов тут живут сайты и целые бизнесы.

У каких-то экономных бизнесменов тут живут сайты и целые бизнесы.
У каких-то экономных бизнесменов тут живут сайты и целые бизнесы. 

Заявленные услуги могут быть вам даже не предоставлены. Например, когда вы платите за выделенный интернет-канал каждый месяц несколько тысяч рублей,   максимум что вы получите – это переключение в менее нагруженный или центральный коммутатор, который и так забит под завязку.

Безопасность

 Нет, только не здесь. Седых волос на моей голове прибавилось, когда я узнал что все внутренние сервисы крутятся на белых IP-адресах. Ответ руководства в духе "А чё такова?" уже не удивил. Они не защищены фаерволлом и имеют доступ к стандартным портам по SSH, RDP с не очень сложными однотипными паролями. Кроме того, внутренние сервисы не имеют отдельной физической сети, поэтому же по ночам могут быть просадки по трафику из-за "гоняемых" по ДЦ бэкапов.

Условия труда

Думаю и так понятно, что если руководству наплевать на клиентов, то на сотрудников наплевать тем более. Освещенность в залах была так слаба, что без фонарика  сложно что-либо рассмотреть.

В здании не было воды и сан. узла. Подмениться было сложно, а взять больничный – крайне болезненно для кармана. Полноценный отпуск тоже был лишь мечтой, поскольку за тебя приходилось бесплатно трудиться твоим сменщикам. Выполнение платных работ для клиентов на зарплату никак не влияет, но вот отказаться от них –  очень сложно. Также нашей обязанностью было ездить на встречи с клиентами, забирать, передавать оборудование.

Нередко случалось так, что в нашей рекламе мелькали услуги, которые у нас попросту не оказывались. Когда клиент интересовался услугой, ответить ему было попросту нечего. Но руководство это ничуть не смущало. 

Оборудование, которое было выставлено на заказ, часто отсутствовало. Не было и нормальной системы учета. Неоплаченные сервера могли работать месяцами, пока это кто нибудь не замечал. 

Для меня все едва не закончилось нервным срывом и проблемами с семьем. Лишь после этого я покинул это место работы. Сейчас на мне не лежит такой груз ответственности, из-за которого перестал спать ночами, ушло чувство тревожности, бессмысленности своей жизни. И пусть сейчас я занимаюсь не самой лучшей (хотя,  тоже интересной) работой, чувствую себя намного лучше. Надеюсь, мой рассказа хоть кому-то поможет уберечь себя от ошибок в выборе хостинг-провайдера, а может и предотвратит поступление на работу в такой дата-центр .

От редакции: если у вас есть чем поделиться с коллегами по отрасли, приглашаем к сотрудничеству
Ссылка на материал, для размещения на сторонних ресурсах
/articles/article/104863/falshivyiy-blesk-i-nischeta-udivitelnogo-data-tsentra.html

Обсудить на форуме

Оставлять комментарии могут только зарегистрированные пользователи

Зарегистрироваться