Постмортем: инцидент в датацентре АМС-1, март 2024
Инфраструктура, которая не ломается.
15 марта 2024 года в 14:00 UTC+2 в нашем дата-центре Amsterdam-1 (AMS-1) произошёл инцидент, повлиявший на доступность части сервисов. Мы провели полную ревизию систем, обновили протоколы мониторинга и внедрили новые механизмы защиты BGP.
Ниже — подробный разбор событий, причин и того, как мы это исправили. Мы верим в полную прозрачность и открытость.
События 15 марта 2024
Обнаружение аномалии
Автоматический мониторинг зафиксировал резкое падение пинга в регионе EU-West. Алерты на пульт оператора.
Начало BGP flap
Система BGP-маршрутизации начала менять маршрут для префикса 10.0.0.0/16. Трафик начал уходить с основного дата-центра.
Ручное вмешательство
Наши инженеры локализовали проблему на уровне peering-партнёра и начали процедуру очистки маршрутов.
Полное восстановление
Трафик полностью вернулся на основной канал. Мониторинг подтвердил стабильность работы всех сервисов.
Корневая причина: BGP flap
Причина инцидента — некорректный UPDATE-пакет, отправленный в протокол BGP одним из наших peering-партнёров. Из-за ошибки в конфигурации маски подсети (prefix length) произошёл неожиданный flap (дрожание) маршрута.
В результате часть трафика была перенаправлена на резервный канал, что вызвало задержки для пользователей. Это не было атакой DDoS, а внутренней ошибкой маршрутизации.
Что мы сделали в момент инцидента
Мгновенная изоляция
Инженеры отключили BGP-сессию с проблемным узлом, чтобы остановить утечку трафика.
Контроль качества
Включен режим повышенного мониторинга, чтобы убедиться, что проблема не повторяется.
Клиентская коммуникация
Все клиенты, пострадавшие от инцидента, получили уведомление с объяснением причин и ETA восстановления.
Долгосрочные изменения
BGP Route Leak Protection
Внедрён автоматический фильтр, который отсеивает некорректные маршруты с маской /24 и меньше, поступающие от внешних партнёров.
Улучшенный мониторинг
Добавлены алерты на изменения маршрутов (Route Flap Dampening) и интеграция с Syslog-серверами для анализа логов BGP.
Процедура failover
Автоматизация процесса переключения на резервный канал была ускорена: время реакции уменьшено с 15 минут до 2 минут.
Peer Review
Введена обязательная проверка конфигураций BGP перед внедрением новых peering-сессий.
Извинения и компенсация клиентам
Мы несем полную ответственность за любой простой. Все клиенты, чей сервис был недоступен более 10 минут из-за этого инцидента, получили компенсацию в размере 100% от стоимости простоя.
Компенсация за простой
Кредиты были автоматически добавлены на балансы клиентов и зачислены без необходимости писать заявление.
Подробности расчёта компенсаций вы можете увидеть в личном кабинете.