Мнение экспертов
Ренат Сайфутдинов, руководитель группы сопровождения клиентов «КРОК Облачные сервисы»:
— Обычно мы можем судить о причинах инцидентов по косвенным признакам, кроме тех случаев, когда источник сбоя очевиден. Например, если речь идет о пожаре в ЦОДе, как было в Страсбурге весной. Но такие ситуации происходят редко. В большинстве случаев недоступность сервисов возникает из-за неисправностей на программном или сетевом уровне. По статистике сбоев за последние полгода, наиболее масштабные инциденты связаны с человеческим фактором.
В надежности инфраструктуры крупнейших компаний — Google, Amazon, Facebook — сомневаться не приходится. Потому сбои на уровне инженерной или вычислительной инфраструктуры можно фактически исключить. Однако есть узкие места на программном уровне и в вопросах эксплуатации инфраструктуры. Они могут стать причинами сбоя в дальнейшем. Эта проблема актуальна и для российских провайдеров — не так давно один из них случайно удалил из своего облака виртуальные машины активных пользователей.
Сергей Андронов, директор центра сетевых решений «Инфосистемы Джет»:
— Глобальные сервисы и технологические решения для них с точки зрения единичных ошибок достаточно отказоустойчивые. В ряде случаев существуют механизмы автоматического восстановления, которые помогут быстро воссоздать сеть. Угроза появляется, когда формируется набор событий: сбой в информационной безопасности, технологические ошибки, человеческий фактор. Это может дать лавинообразный эффект и превратиться в глобальный сбой в работе конкретного сервиса.
Объем передаваемой информации будет только увеличиваться, участников сети — становиться все больше. В результате количество сбоев будет пропорционально расти. Можно моделировать и анализировать их, создавая сетевые полигоны, и снижать риск их возникновения в будущем, определив алгоритм действий, чтобы предотвратить их или минимизировать масштабы.
Сергей Голованов, главный эксперт «Лаборатории Касперского»:
— Причинами наиболее резонансных за последние годы сбоев чаще всего становились неполадки в работе глобальных провайдеров. Например, в ноябре 2020 года у многих сервисов случились сбои из-за проблем в работе самой распространенной в мире облачной платформы AWS. Иногда проблемы могут быть вызваны техногенными происшествиями: в 2018 году почти весь центр Сеула на два дня остался без связи и интернета в результате пожара в аппаратной одного из крупнейших операторов страны.
Решения, гарантирующего бесперебойную работу всего интернета, нет. Кроме того, несмотря на автоматизированность большинства процессов, свою, пусть и небольшую, долю в них сохраняет человеческий фактор. Главное, что могут и должны сделать компании в современных условиях,— обеспечить безопасность данных на случай подобных сбоев.