1. Новости
Заметки пользователей
21.08.2015 08:50
2900
0
21.08.2015 08:50
PDF
2900
0

Молния четыре раза нарушала работу ЦОД Google

Автор: c0mandir

Неделю назад произошло событие, которое привлекло внимание некоторыми деталями. Во-первых, всё случилось хоть и не в пятницу, но 13-го числа. Во-вторых, попадание даже одной молнии, куда-либо, может окончиться очень по-разному, а тут — молния попала четыре раза. В-третьих, пострадавшим из-за мощных грозовых разрядов стал один из ЦОДов Google. И, наконец, небеса показали "кто есть кто" в "облачных технологиях": хоть и незначительно, по уверениям Google, но пострадали данные пользователей.

Не будем больше искать в этом событии мистических намёков, но произошедшее точно не осталось незамеченным ...

Небольшая справка. Несчастливый ЦОД, в котором трое суток восстанавливали данные из-за того, что за один день поблизости с ним четырежды ударила молния, находится в Бельгии. Это один из четырёх дата-центров Google, действующих в Европе.

Молния четыре раза нарушала работу ЦОД Google

Бельгия не входит в список стран, где наиболее часто наблюдаются молнии. И вроде бы ЦОДу ничего не грозило...

Google сообщает, что у этого ЦОДа, находящегося вблизи небольшого городка Saint-Ghislain (St. Ghislain), есть особенность — это первый центр компании, в котором обошлись без специальных охлаждающих воду установок. Такое решение позволило снизить эксплуатационные расходы на электроэнергию.

В данный инфраструктурный объект американская интернет-компания уже вложила 550 млн. евро: на первом этапе строительства было потрачено 250 млн. евро и в 2010 году ЦОД стал эксплуатироваться на полную мощность. В 2013 году было принято решение о расширении ЦОДа с учётом растущего спроса в Европе и в мире, было инвестировано ещё 300 млн. долларов. И в 2015 году второй этап был завершён.

Молния четыре раза нарушала работу ЦОД Google

Затраты Google на ЦОД в Бельгии

В целом с 2007 года по 2014 год, по оценке "Copenhagen Economics A/S", компания Google потратила на строительство и на деятельность ЦОДа 775 млн. евро. Планируется ещё одно расширение ЦОДа в 2016-2018 годах.

Что случилось 13-го

Но потраченные за прошлые годы в большом объёме денежные средства не помогли избежать аварии. Событие, случившееся во время грозы 13 августа, судя по последним публичным данным компании Google, стало самым продолжительным аварийным случаем в текущем месяце.

Молния четыре раза нарушала работу ЦОД Google

"We are still working..." — с таких слов несколько раз в течение 13-14 августа начинались сообщения Google,
описывающие ход работ и текущее состояние Google Compute Engine и Standard Persistent Disks

Похоже, что мощность грозового разряда была достаточно велика, чтобы косвенно воздействовать и на электрическое, и на электронное оборудование, находящееся в ЦОДе, дополнительной проблемой, видимо, стала и неоднократность события. Наведённые помехи нарушили нормальное электропитание, вызвав сбой. Google сообщает в описании инцидента, что переключение на другие источники питания произошло автоматически и быстро. Но, видимо, недостаточно быстро ...

Как оказалось, нарушение работы Google Compute Engine (сервис, использующий виртуализацию) оказалось самым длительным и за последние девяносто дней: продолжительность этого инцидента 72 часа 10 минут — по данным компании на странице status.cloud.google.com/summary.

Пропадание питания привело к утрате части данных, находящихся в это время в Google Compute Engine (GCE). Кроме этого, примерно у 5% дисков в системе хранения в период с 13 по 17 августа возникали ошибки чтения/записи, что не позволяло нормально эксплуатировать сервисы. Правда, ничего не сказано о замене тех жёстких дисков, которые стали работать неправильно, но, скорее всего, эта работа проводилась. Google проинформировал, что в этот период сотрудники занимались восстановлением сервиса и данных в том объёме, насколько это было возможно. Как заверила компания, "... SSD Persistent Disks, disk snapshots, and Local SSDs were not affected by the incident. In particular, it was possible at all times to recreate new Persistent Disks from existing snapshots". Можно предположить, что в ЦОДе использовали не только SSD, но и привычные HDD.

Молния четыре раза нарушала работу ЦОД Google

Молнии, попадающие в систему электропитания, не единственная проблема — ещё есть люди и крысы

Через сутки пользователям, чьи данные оказались на пострадавших жестких дисках (на тот момент их доля была уже 0,05-0,1%), предложили самим восстановить данные, сохранённые ранее, то есть откатиться назад, использовав GCE snapshots. Известно, что некоторые компании-клиенты этим воспользовались и, таким образом, возобновили работу своих информационных сервисов. Так, по словам Charley David из французского стартапа Azendoo, они не могли пользоваться услугами ЦОД компании Google примерно 12 часов.

"Google recovered a small part of our data for us, but we had to manually recover the biggest part by ourselves. Luckily, Azendoo had data backed up in another Google data center...", — такой комментарий, был получен CNNMoney от Charley David.

14 августа появилось сообщение компании о том, что будет проведено служебное расследование с целью выяснения причин возникшей аварийной ситуации. Также, ближайшие три рабочих дня сотрудники Google были готовы дополнительно пообщаться с теми пользователями, у которых возникали какие-либо проблемы. Справедливости ради, надо сказать, что в самом начале инцидента компания сразу же извинилась за возникшие по её вине трудности и несколько раз в день информировала о своих действиях по восстановлению сервиса.

Молния четыре раза нарушала работу ЦОД Google

Шутка про "облачные" технологии

В качестве мер, предупреждающих повторение подобных ситуаций или уменьшающих последствия, компания Google начала замену имеющегося оборудования на то, которое более устойчиво к кратковременному пропаданию электропитания при авариях. Эта работа проводилась на постоянной основе, так что большая часть дисковых массивов была уже заменена ранее и не должна пострадать при сбоях питания.

Молния четыре раза нарушала работу ЦОД Google

К тем жёстким дискам, которые выходят из строя в процессе эксплуатации
в бельгийском ЦОДе Google, после 13 августа, возможно, добавились ещё

Кроме этого, инженеры Google проанализировали всю систему ЦОДа, включая электрическую проводку и управляющее ПО, с точки зрения наличия других слабых мест. Было предложено несколько решений для повышения надёжности сохранения данных в кэше.

Молния четыре раза нарушала работу ЦОД Google

В бельгийском ЦОДе, судя по фото, были молниеотводы, но 13 августа они ничем не могли помочь — "беда" пришла по другому пути

Как заявила компания Google, она полностью ответственна за возникшую аварию. При этом ничего не говорится о компенсациях "за простой" клиентам, но, наверняка, без этого не обойдётся. Что сколько стоит при бесперебойной работе Google Compute Engine можно посмотреть тут.

Кроме информирования о заменах оборудования в ЦОДе и после слов о своей полной ответственности у Google есть информация и для клиентов, которым также предлагается подумать и, может быть, что-то поменять: "GCE instances and Persistent Disks within a zone exist in a single Google datacenter and are therefore unavoidably vulnerable to datacenter-scale disasters. Customers who need maximum availability should be prepared to switch their operations to another GCE zone. For maximum durability we recommend GCE snapshots and Google Cloud Storage as resilient, geographically replicated repositories for your data". Если коротко — "не надо класть все яйца в одну корзину".

-------------
Joe Beda — Former Googler. Started Google Compute Engine, Kubernetes and Google Container Engine.

0 комментариев
Оставлять комментарии могут только авторизованные пользователи