Вернуться к старой версии портала ПЕРЕЙТИ
Оставить отзыв
  1. Статьи
Заметки пользователей
07.10.2021 13:08
PDF
207
9

Сбой Facebook стал самым масштабным в истории интернета

Минувший понедельник мир, возможно, запомнит как день, когда состоялся один из самых глобальных сбоев в работе мировой паутины за всю ее историю. Накануне вечером пользователи начали массово жаловаться на недоступность социальной сети Facebook. Затем, по цепочке начали падать принадлежащие компании WhatsApp и Instagram. Следом проблемы начали возникать у других мессенджеров и социальных сетей, в том числе у Google, Amazon и Twitter.

Вслед за перечисленными выше, постепенно начали обрушиваться и другие сервисы. Так, уже через два часа стал недоступен Tik-Tok, потом проблемы добрались и до российского “ВКонтакте”. Чуть позже проблемы докатились до Netflix, Zoom, Viber, Tinder, YouTube. Больше всего жалоб на сбои поступало из из США и Великобритании, а также из Канады, Нидерландов, Германии, Италии и Франции.

Несколько позже специалистам удалось подсчитать примерные масштабы сбоя в работе социальных сетей. Так, о проблемах в работе Facebook сообщили 126 тысяч человек, WhatsApp - более 35 тысяч пользователей, а Instagram — около 100 тысяч юзеров. Речь идет только о тех, кто сообщил о сбоях на портале Downdetector: в реальности число тех, кто не смог воспользоваться сервисами компании, больше.

Сбой Facebook стал самым масштабным в истории интернета
Парализованными оказались сервисы для внутренней коммуникации компании Facebook

Но проблема с доступностью коснулась не только крупнейших социальных сетей. Также парализованными оказались сервисы для внутренней коммуникации компании Facebook, что серьезно усугубляло проблему. Кроме этого, сотрудники Facebook долгое время не могли попасть в офис в ночное время из-за сбоя в охранной системе офиса.

Примечательно, что обвал крупнейших социальных сетей повлек за собой и сильное падение на фондовом рынке. Глобальный сбой Facebook привел к падению котировок акций компании на 5,3%, что обернулось для Марка Цукерберга потерей 6,6 миллиардов долларов. В рейтинге богатейших людей планеты он потерял сразу несколько позиций и опустился на шестое место.

Сбой Facebook стал самым масштабным в истории интернета
Обвал крупнейших социальных сетей повлек за собой и сильное падение на фондовом рынке

В компании изначально не могли озвучить точную причину сбоя, но многие эксперты связывают проблему с неполадками в работе DNS-серверов. Как пояснил директор по интернет-анализу компании Kentik Inc. Даг Мадори, проблема могла заключаться в том, что записи DNS, с помощью которых система находила Facebook.com и Instagram.com, могли быть удалены из таблиц глобальной маршрутизации.

Аналогичной точки зрения придерживается и эксперт инжинирингового центра SafeNet НТИ Игорь Бедеров. Он также считает, что причиной проблемы стала неисправность, связанная с DNS. 

Несколько позже, Facebook в своем официальном блоге опубликовал пост, посвященный событиям понедельника. По данным экспертов компании, сбой был вызван из-за неполадок в системе, которая управляет пропускной способностью магистральной сети.

“Основой является сеть, созданная Facebook для объединения всех наших вычислительных мощностей, состоящая из десятков тысяч миль волоконно-оптических кабелей, пересекающих земной шар и соединяющих все наши центры обработки данных.

Когда вы открываете одно из наших приложений и загружаете свой канал или сообщения, запрос приложения на данные отправляется с вашего устройства в ближайшее учреждение, которое затем напрямую связывается по нашей магистральной сети с более крупным центром обработки данных. Именно там информация, необходимая вашему приложению, извлекается, обрабатывается и отправляется обратно по сети на ваш телефон.

Трафик данных между всеми этими вычислительными средствами управляется маршрутизаторами, которые определяют, куда отправлять все входящие и исходящие данные. И в ходе обширной повседневной работы по обслуживанию этой инфраструктуры, нашим инженерам часто приходится отключать часть магистрали для технического обслуживания – возможно, ремонтировать оптоволоконную линию, увеличивать пропускную способность или обновлять программное обеспечение на самом маршрутизаторе.

Это было причиной вчерашнего отключения. Во время одного из этих плановых ремонтных работ была выдана команда с намерением оценить доступность глобальной магистральной сети, которая непреднамеренно отключила все соединения в нашей магистральной сети, отключив центры обработки данных Facebook по всему миру. Наши системы предназначены для аудита подобных команд, чтобы предотвратить подобные ошибки, но ошибка в этом инструменте аудита не позволила ему должным образом остановить команду.

Сбой Facebook стал самым масштабным в истории интернета
DNS-серверы стали недоступны

Это изменение привело к полному отключению серверных соединений между нашими центрами обработки данных и Интернетом. И эта полная потеря связи вызвала вторую проблему, которая усугубила ситуацию.

Одна из задач, выполняемых нашими небольшими предприятиями, заключается в том, чтобы отвечать на запросы DNS. DNS-это адресная книга Интернета, позволяющая переводить простые веб-имена, которые мы вводим в браузеры, на конкретные IP-адреса серверов. На эти запросы о переводе отвечают наши авторитетные серверы имен, которые сами занимают хорошо известные IP-адреса, которые, в свою очередь, рекламируются остальной части интернета с помощью другого протокола, называемого протоколом пограничного шлюза (BGP).

Чтобы обеспечить надежную работу, наши DNS-серверы отключают BGP, если они сами не могут связаться с нашими центрами обработки данных, поскольку это свидетельствует о нездоровом сетевом подключении. Во время недавнего отключения вся магистраль была выведена из эксплуатации, в результате чего эти места объявили себя нездоровыми и отозвали рекламу BGP. Конечным результатом стало то, что наши DNS-серверы стали недоступны, хотя они все еще работали. Это сделало невозможным для остальной части интернета поиск наших серверов.

Все это произошло очень быстро. И пока наши инженеры работали над тем, чтобы выяснить, что происходит и почему, они столкнулись с двумя большими препятствиями: во-первых, не было возможности получить доступ к нашим центрам обработки данных обычными средствами, потому что их сети были отключены, и, во-вторых, полная потеря DNS сломала многие внутренние инструменты, которые мы обычно использовали бы для расследования и устранения подобных сбоев.

Наш основной доступ к сети был отключен, поэтому мы послали инженеров в центры обработки данных, чтобы они устранили проблему и перезапустили системы. Но на это потребовалось время, поскольку эти объекты спроектированы с учетом высокого уровня физической и системной безопасности. В них трудно проникнуть, а внутри оборудование и маршрутизаторы спроектированы так, чтобы их было трудно модифицировать, даже если у вас есть физический доступ к ним. Поэтому потребовалось дополнительное время, чтобы активировать протоколы безопасного доступа, необходимые для того, чтобы люди могли находиться на месте и работать на серверах. 

Сбой Facebook стал самым масштабным в истории интернета
Одновременное включение наших сервисов потенциально может привести к новому витку сбоев из-за резкого увеличения трафика

Как только наше подключение к магистральной сети было восстановлено во всех регионах наших центров обработки данных, все вернулось на свои места. Но проблема не была решена - мы знали, что одновременное включение наших сервисов потенциально может привести к новому витку сбоев из-за резкого увеличения трафика. Отдельные центры обработки данных сообщали о снижении энергопотребления в диапазоне десятков мегаватт, и внезапное изменение такого снижения энергопотребления могло поставить под угрозу все.

К счастью, это событие, к которому мы хорошо подготовились благодаря учениям, которые мы проводим уже долгое время. Во время учений мы имитируем серьезный системный сбой, проводя стресс-тестирование всей задействованной инфраструктуры и программного обеспечения. Опыт, полученный в ходе этих тренировок, дал нам уверенность и опыт, чтобы вернуть все в онлайн-режим и тщательно справляться с возрастающими нагрузками. В конце концов, наши сервисы восстановились относительно быстро, без каких-либо дальнейших системных сбоев. И хотя мы никогда ранее не запускали вариант, который имитировал бы отключение нашей глобальной магистрали, мы, безусловно, будем искать способы моделирования подобных событий в будущем”, - говорится в сообщении компании.

9 комментариев
Гость
Гость
гугл-переводчик? невозможно читать!
Urs_ak
Urs_ak

Версия, что это диверсия одной башни Капитолия против другой башни, мне кажется вполне вероятной

Достаточно часто и глобально - то у Google всё отвалится (14.12.20), то у Facebook (13.03.19, 04.10.21)

Siloviki везде есть, у каждой башни

Ivan_83
Ivan_83
2 часа назад, Robot_NagNews сказал:

Минувший понедельник мир, возможно, запомнит как день, когда состоялся один из самых глобальных сбоев в работе мировой паутины за всю ее историю.

ЧИВО!?

Вот когда ляжет глобально банковский процессинг на сутки - вот это будет реально мегафакап который запомнят многие, а некоторые и не переживут.

А это говно для развлечения и прочие ненужно сервисы, если бы не новости я бы даже никогда и не узнал что там что то было - у меня и так половина этого дома заблочено во избежания трекинга и рекламы.

Я вот помню блэкаут в москве, когда инет по всей стране лежал.

pppoetest
pppoetest
В 07.10.2021 в 17:41, Ivan_83 сказал:

А это говно для развлечения и прочие ненужно сервисы

Плюсую.

kapydan
kapydan
В 07.10.2021 в 14:41, Ivan_83 сказал:

Я вот помню блэкаут в москве, когда инет по всей стране лежал. 

лето 2005 года?

Ivan_83
Ivan_83
10 минут назад, kapydan сказал:

лето 2005 года?

хз, мне кажется чуть позднее

st_re
st_re

май 2005

kapydan
kapydan
4 часа назад, st_re сказал:

май 2005

да, конец мая 2005 года был. время перед летней сессией и мы решили с одногруппником уйти пораньше с конференции попить пивка и поехать в библиотеку... пивка мы выпили, но до библиотеки так и не доехали.

московское метро не работает - ни кольцевая, ни радиальные, мобильные не работают, троллейбусы стоят (особенно задница была на лубянке и комсомольской), никто ничего не знает толком... помню, как люди просто выходили из тоннелей (или на добрынинской, или на шаболоской-октябрьской дело было). транспорт более-менее стал нормально ходить часам к 18-19.