Новости IT Cloudflare признала, что часть ее сервисов упали на четыре с половиной часа из-за отключения немаркированных кабелей

TaLLeR43

Администраторы
Сообщения
41
Лучшие ответы
0
Реакции
2
Баллы
15
Согласно информации издания Register и публикации в корпоративном блоге компании Cloudflare, в середине апреля 2020 года произошел серьезных инцидент, приведший к прерыванию на четыре с половиной часа сервисов Cloudflare Dashboard и Cloudflare API.

Данный сетевой инцидент начался с планового технического обслуживания в одном из основных центров обработки данных компании. В ходе работ инженеру, занимающемуся демонтажем, было дано простое задание от технических специалистов Cloudflare — отключить и убрать все сетевое оборудование в одном из телекоммуникационных шкафов. По информации сетевых инженеров компании, в этом шкафу было установлено устаревшее сетевое и серверное оборудование, которое в сети компании уже не было задействовано, поэтому работы проводились инженером без остановки сервисов и в обычное рабочее время.

Однако, в реальности оказалось, что в этом шкафу был установлен коммутационный оптический кросс, обеспечивающую все внешние подключения к другим дата-центрам Cloudflare. Инженеру понадобилось менее трех минут, чтобы отключить все немаркированные оптические кабели и патч-корды от этого оптического кросса, который был единственной точкой отказа для этого центра обработки данных Cloudflare.

«Начиная с 15:31 UTC и продолжая до 19:52 UTC, сервисы Cloudflare Dashboard и Cloudflare API стали недоступны из-за отключения нескольких избыточных оптоволоконных соединений в одном из наших основных центров обработки данных», — заявил в блоге представитель Cloudflare.

После регистрации инцидента сетевые специалисты компании пытались максимально разобраться в произошедшем, но это заняло у них много время, так как многие оптические кабели в как в шкафу, где проводились работы, так и в других местах, не были правильно промаркированы, из-за чего пришлось выполнять на месте дополнительные проверки соединений с помощью специального оборудования.

Также для решения этой проблемы более двадцати сетевых инженеров работали удаленно, помогая организовать восстановление связи и следили за аварийным восстановлением сервисов после сбоя.

Cloudflare обещает, что наказывать инженера не будет, но примет такие меры, чтобы подобные происшествия не случались в будущем.

Вдобавок в Cloudflare уверили, что информация клиентов не пострадала, просто у них пропал доступ к части сервисов компании, а все конфигурационные данные были сохранены компанией и не изменились во время инцидента.

Во время инцидента продолжали штатно работать: сама сеть Cloudflare, прокси-сайты клиентов и приложения, в том числе Magic Transit, Cloudflare Access, Cloudflare Spectrum, Web Application Firewall. Также полноценно функционировали все системы безопасности компании.
 

Яндекс.Метрика

Верх