vk_logo twitter_logo facebook_logo googleplus_logo youtube_logo telegram_logo telegram_logo

Молния четыре раза нарушала работу ЦОД Google

Дата публикации: 21.08.2015
Количество просмотров: 1877
Автор:

Неделю назад произошло событие, которое привлекло внимание некоторыми деталями. Во-первых, всё случилось хоть и не в пятницу, но 13-го числа. Во-вторых, попадание даже одной молнии, куда-либо, может окончиться очень по-разному, а тут — молния попала четыре раза. В-третьих, пострадавшим из-за мощных грозовых разрядов стал один из ЦОДов Google. И, наконец, небеса показали "кто есть кто" в "облачных технологиях": хоть и незначительно, по уверениям Google, но пострадали данные пользователей.

Не будем больше искать в этом событии мистических намёков, но произошедшее точно не осталось незамеченным ...

Небольшая справка. Несчастливый ЦОД, в котором трое суток восстанавливали данные из-за того, что за один день поблизости с ним четырежды ударила молния, находится в Бельгии. Это один из четырёх дата-центров Google, действующих в Европе.

Бельгия не входит в список стран, где наиболее часто наблюдаются молнии

Бельгия не входит в список стран, где наиболее часто наблюдаются молнии. И вроде бы ЦОДу ничего не грозило...

Google сообщает, что у этого ЦОДа, находящегося вблизи небольшого городка Saint-Ghislain (St. Ghislain), есть особенность — это первый центр компании, в котором обошлись без специальных охлаждающих воду установок. Такое решение позволило снизить эксплуатационные расходы на электроэнергию.

В данный инфраструктурный объект американская интернет-компания уже вложила 550 млн. евро: на первом этапе строительства было потрачено 250 млн. евро и в 2010 году ЦОД стал эксплуатироваться на полную мощность. В 2013 году было принято решение о расширении ЦОДа с учётом растущего спроса в Европе и в мире, было инвестировано ещё 300 млн. долларов. И в 2015 году второй этап был завершён.

Затраты Google на ЦОД в Бельгии

Затраты Google на ЦОД в Бельгии

В целом с 2007 года по 2014 год, по оценке "Copenhagen Economics A/S", компания Google потратила на строительство и на деятельность ЦОДа 775 млн. евро. Планируется ещё одно расширение ЦОДа в 2016-2018 годах.

Что случилось 13-го

Но потраченные за прошлые годы в большом объёме денежные средства не помогли избежать аварии. Событие, случившееся во время грозы 13 августа, судя по последним публичным данным компании Google, стало самым продолжительным аварийным случаем в текущем месяце.

"We are still working..." — с таких слов несколько раз в течение 13-14 августа начинались сообщения Google, описывающие ход работ и текущее состояние сервисов Google Compute Engine и Standard Persistent Disks

"We are still working..." — с таких слов несколько раз в течение 13-14 августа начинались сообщения Google,
описывающие ход работ и текущее состояние Google Compute Engine и Standard Persistent Disks

Похоже, что мощность грозового разряда была достаточно велика, чтобы косвенно воздействовать и на электрическое, и на электронное оборудование, находящееся в ЦОДе, дополнительной проблемой, видимо, стала и неоднократность события. Наведённые помехи нарушили нормальное электропитание, вызвав сбой. Google сообщает в описании инцидента, что переключение на другие источники питания произошло автоматически и быстро. Но, видимо, недостаточно быстро ...

Как оказалось, нарушение работы Google Compute Engine (сервис, использующий виртуализацию) оказалось самым длительным и за последние девяносто дней: продолжительность этого инцидента 72 часа 10 минут — по данным компании на странице status.cloud.google.com/summary.

Пропадание питания привело к утрате части данных, находящихся в это время в Google Compute Engine (GCE). Кроме этого, примерно у 5% дисков в системе хранения в период с 13 по 17 августа возникали ошибки чтения/записи, что не позволяло нормально эксплуатировать сервисы. Правда, ничего не сказано о замене тех жёстких дисков, которые стали работать неправильно, но, скорее всего, эта работа проводилась. Google проинформировал, что в этот период сотрудники занимались восстановлением сервиса и данных в том объёме, насколько это было возможно. Как заверила компания, "... SSD Persistent Disks, disk snapshots, and Local SSDs were not affected by the incident. In particular, it was possible at all times to recreate new Persistent Disks from existing snapshots". Можно предположить, что в ЦОДе использовали не только SSD, но и привычные HDD.

Молнии, попадающие в систему электропитания, не единственная проблема — ещё есть люди и крысы

Молнии, попадающие в систему электропитания, не единственная проблема — ещё есть люди и крысы

Через сутки пользователям, чьи данные оказались на пострадавших жестких дисках (на тот момент их доля была уже 0,05-0,1%), предложили самим восстановить данные, сохранённые ранее, то есть откатиться назад, использовав GCE snapshots. Известно, что некоторые компании-клиенты этим воспользовались и, таким образом, возобновили работу своих информационных сервисов. Так, по словам Charley David из французского стартапа Azendoo, они не могли пользоваться услугами ЦОД компании Google примерно 12 часов.

"Google recovered a small part of our data for us, but we had to manually recover the biggest part by ourselves. Luckily, Azendoo had data backed up in another Google data center...", — такой комментарий, был получен CNNMoney от Charley David.

14 августа появилось сообщение компании о том, что будет проведено служебное расследование с целью выяснения причин возникшей аварийной ситуации. Также, ближайшие три рабочих дня сотрудники Google были готовы дополнительно пообщаться с теми пользователями, у которых возникали какие-либо проблемы. Справедливости ради, надо сказать, что в самом начале инцидента компания сразу же извинилась за возникшие по её вине трудности и несколько раз в день информировала о своих действиях по восстановлению сервиса.

Шутка про "облачные" технологии

Шутка про "облачные" технологии

В качестве мер, предупреждающих повторение подобных ситуаций или уменьшающих последствия, компания Google начала замену имеющегося оборудования на то, которое более устойчиво к кратковременному пропаданию электропитания при авариях. Эта работа проводилась на постоянной основе, так что большая часть дисковых массивов была уже заменена ранее и не должна пострадать при сбоях питания.

К тем жёстким дискам, которые выходят из строя в процессе эксплуатации в бельгийском ЦОДе Google, после 13 августа, возможно, добавились ещё

К тем жёстким дискам, которые выходят из строя в процессе эксплуатации
в бельгийском ЦОДе Google, после 13 августа, возможно, добавились ещё

Кроме этого, инженеры Google проанализировали всю систему ЦОДа, включая электрическую проводку и управляющее ПО, с точки зрения наличия других слабых мест. Было предложено несколько решений для повышения надёжности сохранения данных в кэше.

В бельгийском ЦОДе, судя по фото, были молниеотводы, но 13 августа они ничем не могли помочь

В бельгийском ЦОДе, судя по фото, были молниеотводы, но 13 августа они ничем не могли помочь — "беда" пришла по другому пути

Как заявила компания Google, она полностью ответственна за возникшую аварию. При этом ничего не говорится о компенсациях "за простой" клиентам, но, наверняка, без этого не обойдётся. Что сколько стоит при бесперебойной работе Google Compute Engine можно посмотреть тут.

Кроме информирования о заменах оборудования в ЦОДе и после слов о своей полной ответственности у Google есть информация и для клиентов, которым также предлагается подумать и, может быть, что-то поменять: "GCE instances and Persistent Disks within a zone exist in a single Google datacenter and are therefore unavoidably vulnerable to datacenter-scale disasters. Customers who need maximum availability should be prepared to switch their operations to another GCE zone. For maximum durability we recommend GCE snapshots and Google Cloud Storage as resilient, geographically replicated repositories for your data". Если коротко — "не надо класть все яйца в одну корзину".

-------------
Joe Beda — Former Googler. Started Google Compute Engine, Kubernetes and Google Container Engine.

От редакции: если у вас есть чем поделиться с коллегами по отрасли, приглашаем к сотрудничеству
Ссылка на материал, для размещения на сторонних ресурсах
/news/newsline/27968/molniya-chetyire-raza-narushala-rabotu-tsod-google.html

Обсудить на форуме

Оставлять комментарии могут только зарегистрированные пользователи

Зарегистрироваться