Facebook объяснил глобальной сбой собственной технической ошибкой
Отключение онлайн-сервисов Facebook было вызвано не вредоносной деятельностью, а собственной ошибкой, заявил вице-президент компании по инфраструктуре Сантош Джанардхан. По его словам, инженеры выпустили сетевую команду, которая непреднамеренно отключила центры обработки данных Facebook от сети компании и вывела ее службы и сервисы из интернета
Компания Facebook выпустила отчет о причинах глобального сбоя в понедельник, 4 октября, когда около 3 млрд пользователей не могли получить доступ к соцсети, Instagram, WhatsApp и другим сервисам. Причиной сбоя стала не вредоносная деятельность, а «наша собственная ошибка», написал в блоге компании вице-президент компании по инфраструктуре Сантош Джанардхан.
Крупнейший в истории компании по количеству затронутых пользователей шестичасовой сбой произошел при выполнении планового технического обслуживания, объяснил Джанардхан. Стремясь получить представление о сетевых возможностях Facebook, инженеры выпустили сетевую команду, которая непреднамеренно отключила все центры обработки данных Facebook от сети компании. Это привело к каскаду сбоев, которые вывели все службы Facebook из интернета. Инженерам пришлось ехать в центры обработки данных и перезапускать там системы, сообщили в компании.
«Но на это потребовалось время, поскольку эти объекты спроектированы с учетом высокого уровня физической и системной безопасности. В них трудно проникнуть, и как только вы окажетесь внутри, оборудование и маршрутизаторы будут спроектированы так, чтобы их было трудно изменить, даже если у вас есть физический доступ к ним. Поэтому потребовалось дополнительное время, чтобы активировать протоколы безопасного доступа, необходимые для того, чтобы люди могли находиться на месте и работать на серверах», — рассказал вице-президент по инфраструктуре.
Джанардхан отметил, что отключен в результате сбоя «был наш основной и внеполосный доступ к сети». Внеполосная сеть компании является резервной, она предназначена для отделения от остальной части Facebook и должна была предоставить инженерам возможность удаленно исправлять системы в течение нескольких минут, когда они выходят из строя, пишет The Wall Street Journal. Вице-президент Facebook по инфраструктуре не объяснил причины недоступности резервной сети в отчете об аварии, опубликованном в блоге компании.
Директор по анализу интернета в компании по мониторингу сетей Kentik Дуг Мэдори назвал Facebook «организацией с бесконечными ресурсами и одними из самых талантливых людей». Он отметил, что компания, возможно, недостаточно тщательно изучила свои собственные решения и процессы резервного копирования.
После того, как отключились центры обработки данных, серверы, использующие систему доменных имен (DNS), также потеряли доступ к сети. Браузеры и мобильные телефоны используют DNS для поиска сервисов Facebook в интернете, без этого подключения «остальной части интернета было невозможно найти наши серверы», рассказал Джанардхан. «Каждая подобная неудача — это возможность учиться и становиться лучше, и нам есть чему поучиться на этом», — добавил он.
В понедельник в работе Facebook произошел масштабный сбой, из-за которого соцсеть и принадлежащие ей Instagram и WhatsApp примерно на шесть часов оказались недоступны. Цукерберг извинился за неполадки, но не назвал их причину. Его состояние по итогам торгов в понедельник упало на $5,9 млрд, а во время сбоя снижалось почти на $7 млрд.