Блог / Инциденты

Постмортем: инцидент в датацентре АМС-1, март 2024

Инфраструктура, которая не ломается.
15 марта 2024 года в 14:00 UTC+2 в нашем дата-центре Amsterdam-1 (AMS-1) произошёл инцидент, повлиявший на доступность части сервисов. Мы провели полную ревизию систем, обновили протоколы мониторинга и внедрили новые механизмы защиты BGP.

Ниже — подробный разбор событий, причин и того, как мы это исправили. Мы верим в полную прозрачность и открытость.

Схема сетевой топологии дата-центра АМС-1 и точки входа
Схема сетевой топологии дата-центра АМС-1 и точки входа
Таймлайн

События 15 марта 2024

14:00 UTC

Обнаружение аномалии

Автоматический мониторинг зафиксировал резкое падение пинга в регионе EU-West. Алерты на пульт оператора.

14:02 UTC

Начало BGP flap

Система BGP-маршрутизации начала менять маршрут для префикса 10.0.0.0/16. Трафик начал уходить с основного дата-центра.

14:15 UTC

Ручное вмешательство

Наши инженеры локализовали проблему на уровне peering-партнёра и начали процедуру очистки маршрутов.

14:45 UTC

Полное восстановление

Трафик полностью вернулся на основной канал. Мониторинг подтвердил стабильность работы всех сервисов.

Анализ

Корневая причина: BGP flap

Причина инцидента — некорректный UPDATE-пакет, отправленный в протокол BGP одним из наших peering-партнёров. Из-за ошибки в конфигурации маски подсети (prefix length) произошёл неожиданный flap (дрожание) маршрута.

В результате часть трафика была перенаправлена на резервный канал, что вызвало задержки для пользователей. Это не было атакой DDoS, а внутренней ошибкой маршрутизации.

Реакция

Что мы сделали в момент инцидента

Мгновенная изоляция

Инженеры отключили BGP-сессию с проблемным узлом, чтобы остановить утечку трафика.

Контроль качества

Включен режим повышенного мониторинга, чтобы убедиться, что проблема не повторяется.

Клиентская коммуникация

Все клиенты, пострадавшие от инцидента, получили уведомление с объяснением причин и ETA восстановления.

Модернизация

Долгосрочные изменения

BGP Route Leak Protection

Внедрён автоматический фильтр, который отсеивает некорректные маршруты с маской /24 и меньше, поступающие от внешних партнёров.

Улучшенный мониторинг

Добавлены алерты на изменения маршрутов (Route Flap Dampening) и интеграция с Syslog-серверами для анализа логов BGP.

Процедура failover

Автоматизация процесса переключения на резервный канал была ускорена: время реакции уменьшено с 15 минут до 2 минут.

Peer Review

Введена обязательная проверка конфигураций BGP перед внедрением новых peering-сессий.

Компенсация

Извинения и компенсация клиентам

Мы несем полную ответственность за любой простой. Все клиенты, чей сервис был недоступен более 10 минут из-за этого инцидента, получили компенсацию в размере 100% от стоимости простоя.

100%

Компенсация за простой

Кредиты были автоматически добавлены на балансы клиентов и зачислены без необходимости писать заявление.

Подробности расчёта компенсаций вы можете увидеть в личном кабинете.