На поле сбоя
Как ломался интернет за последние два года
В начале октября произошел один из крупнейших сбоев в истории интернета: в течение нескольких часов не работали Facebook, Instagram и WhatsApp. Глобальные «поломки» разных масштабов происходят постоянно: по данным ThousandEyes, на неделе 4–10 октября в мире произошло 352 сбоя, а за неделю до этого — 323. “Ъ” собрал подборку из пяти крупнейших глобальных инцидентов за последние два года.
4 октября 2021 года: Facebook
Что случилось: на семь часов вышли из строя Facebook, Instagram, Facebook Messenger и WhatsApp. По данным Downdetector, на проблемы пожаловались более 14 млн человек из России, Америки, Европы, Азии, Африки. Пострадали рекламодатели и сервисы, которые косвенно связаны с Facebook, например, через аутентификацию.
Из-за сбоя замедлились или работали нестабильно Google, YouTube, TikTok, Twitter, Viber, Telegram — платформы не справлялись с наплывом аудитории Facebook (2,9 млрд активных пользователей в месяц). Павел Дуров сообщил о 70 млн «беженцев» в Telegram после сбоя, а в Viber количество регистраций выросло на 500%. По оценке Fortune, из-за инцидента Facebook лишилась дохода почти в $100 млн.
Причина сбоя: изменения конфигурации магистральных маршрутизаторов, которые координируют сетевой трафик между центрами обработки данных. Американский журналист Брайан Кребс объяснил это так: «Facebook убрала карту, сообщающую компьютерам по всему миру, как находить ее объекты в интернете».
По информации NYT, Facebook смогла разобраться с инцидентом только после того, как техническая команда получила доступ к серверам в калифорнийском дата-центре и вручную сбросила их состояние.
22 июля 2021 года, DNS-сервис Akamai
Что случилось: из-за часового сбоя DNS-сервиса компании Akamai по крайней мере 40 популярных сайтов стали недоступны для пользователей по всему миру. Пострадали Sony PlayStation Network, Steam, Airbnb, UPS, FedEx, Amazon, McDonald`s, портал Microsoft, поисковик Google, Delta Air Lines и многие другие.
Akamai занимается пограничными вычислениями и предоставляет клиентам «сеть доставки контента» (CDN): компания использует примерно 325 тыс. серверов более чем в 135 странах, чтобы пользователи могли быстро и бесперебойно получать медиа-, аудио- и другой контент.
Причина сбоя: обновление конфигурации ПО вызвало ошибку в системе DNS, которая направляет браузеры на сайты. После отката обновления службы возобновили работу. В Akamai добавили, что компания пересмотрит процесс, чтобы в будущем такие сбои не повторялись.
8 июня 2021 года, CDN-провайдер Fastly
Что случилось: У CDN-провайдера Fastly произошел сбой, который длился почти час. В результате недоступны стали сайты Reddit, Amazon, Twitter, Github, Twitch, Spotify, eBay и даже сайт правительства Великобритании.
Как и Akamai, Fastly позволяет сайтам клиентов хранить данные, например изображения и видео, на зеркальных серверах в 26 странах. Благодаря этому можно быстрее загружать контент. Система также может облегчить обработку данных в период высокого трафика и обеспечить защиту от DDoS-атак.
Причина сбоя: не замеченная вовремя ошибка после развертывания ПО в мае. Баг спровоцировало изменение конфигурации у одного из клиентов. В результате пострадало около 85% трафика, который шел через серверы Fastly. Хотя компания написала, что проблема была серьезной, Fastly справились с ней за 49 минут. Провайдеру понадобилась минута, чтобы обнаружить сбой, и 39 минут, чтобы определить нужную конфигурацию. Еще через 9 минут сервисы начали восстанавливаться. Оперативность впечатлила инвесторов: акции компании подорожали почти на 11% за день.
14 декабря 2020 года, Google
Что случилось: отключился доступ к большинству сервисов Google примерно на 45 минут. Пострадали YouTube, Gmail, Google Suite (ныне — Google Workspace), в который входят «Документы», «Таблицы» и «Презентации», Google Classroom, Google Maps, Google Play, девайсы Google для «умного дома». Проблемы возникали у пользователей других сервисов, которые связаны с экосистемой Google, таких как Slack.
Причина сбоя: проблемы с внутренним хранилищем. Инструменты компании не смогли выделить достаточно места для сервисов аутентификации. Система должна автоматически расширить его, но этого не произошло. В результате сервисы, которые требуют от пользователей входа в систему, выдавали большое количество ошибок.
Хотя сбой Google продлился меньше часа, он затронул множество рабочих процессов: люди не могли отправлять письма, открывать документы, пользоваться календарем.
31 августа 2020 года, интернет-провайдер CenturyLink
Что случилось: перестали работать Amazon Web Services (AWS), Reddit, Hulu, Discord, Twitter, Blizzard, Steam и другие сервисы. Инцидент коснулся и Google: пользователи писали о проблемах с поисковиком и входом в свои аккаунты. Больше всего жалоб поступило из России, Сингапура, Индии, Турции, Франции, Германии, сообщал Downdetector.
CDN-провайдер Cloudflare, также пострадавший, заявил, что инцидент привел к падению глобального интернет-трафика на 3,5%. Это делает сбой одним из самых масштабных в истории интернета, особенно с учетом того, что на решение проблемы ушло около семи часов, пишет ZDNet.
Причина сбоя: компания сообщила, что причиной стало «неправильное указание команды Flowspec в протоколе безопасности BGP Flowspec». Он используется, чтобы перенаправлять трафик. В результате маршрутизаторы в сети CenturyLink начали выдавать некорректные BGP-маршруты другим провайдерам, и это вызвало домино-эффект в сети. BGP-маршруты — это «клей», который поддерживает работу интернета, сообщения, которые интернет-провайдеры передают друг другу.
Чтобы решить проблему, CenturyLink пришлось попросить других Tier-1-операторов отключиться от их сети, перезагрузить все оборудование и очистить таблицы маршрутизации.
Мнение экспертов
Ренат Сайфутдинов, руководитель группы сопровождения клиентов «КРОК Облачные сервисы»:
— Обычно мы можем судить о причинах инцидентов по косвенным признакам, кроме тех случаев, когда источник сбоя очевиден. Например, если речь идет о пожаре в ЦОДе, как было в Страсбурге весной. Но такие ситуации происходят редко. В большинстве случаев недоступность сервисов возникает из-за неисправностей на программном или сетевом уровне. По статистике сбоев за последние полгода, наиболее масштабные инциденты связаны с человеческим фактором.
В надежности инфраструктуры крупнейших компаний — Google, Amazon, Facebook — сомневаться не приходится. Потому сбои на уровне инженерной или вычислительной инфраструктуры можно фактически исключить. Однако есть узкие места на программном уровне и в вопросах эксплуатации инфраструктуры. Они могут стать причинами сбоя в дальнейшем. Эта проблема актуальна и для российских провайдеров — не так давно один из них случайно удалил из своего облака виртуальные машины активных пользователей.
Сергей Андронов, директор центра сетевых решений «Инфосистемы Джет»:
— Глобальные сервисы и технологические решения для них с точки зрения единичных ошибок достаточно отказоустойчивые. В ряде случаев существуют механизмы автоматического восстановления, которые помогут быстро воссоздать сеть. Угроза появляется, когда формируется набор событий: сбой в информационной безопасности, технологические ошибки, человеческий фактор. Это может дать лавинообразный эффект и превратиться в глобальный сбой в работе конкретного сервиса.
Объем передаваемой информации будет только увеличиваться, участников сети — становиться все больше. В результате количество сбоев будет пропорционально расти. Можно моделировать и анализировать их, создавая сетевые полигоны, и снижать риск их возникновения в будущем, определив алгоритм действий, чтобы предотвратить их или минимизировать масштабы.
Сергей Голованов, главный эксперт «Лаборатории Касперского»:
— Причинами наиболее резонансных за последние годы сбоев чаще всего становились неполадки в работе глобальных провайдеров. Например, в ноябре 2020 года у многих сервисов случились сбои из-за проблем в работе самой распространенной в мире облачной платформы AWS. Иногда проблемы могут быть вызваны техногенными происшествиями: в 2018 году почти весь центр Сеула на два дня остался без связи и интернета в результате пожара в аппаратной одного из крупнейших операторов страны.
Решения, гарантирующего бесперебойную работу всего интернета, нет. Кроме того, несмотря на автоматизированность большинства процессов, свою, пусть и небольшую, долю в них сохраняет человеческий фактор. Главное, что могут и должны сделать компании в современных условиях,— обеспечить безопасность данных на случай подобных сбоев.