Собственная система уведомлений о нештатных ситуациях / Алексей Кирпичников (Контур)

preview_player
Показать описание
Приглашаем на конференцию HighLoad++ 2024, которая пройдет 2 и 3 декабря в Москве!
--------
HighLoad++ Moscow 2018

Тезисы и презентация:

Чему мы научились, пока делали собственную систему уведомлений о нештатных ситуациях.

Иногда искусственный интеллект должен принять решение, от которого зависит здоровье человека. Наверняка вы подумали о беспилотных автомобилях, но наша история проще: мы делаем систему, которая будит людей по ночам.

Представьте, что система мониторинга следит за состоянием десяти сервисов и в какой-то момент понимает, что пропали метрики всех сервисов. Кого нужно разбудить? Админов всех сервисов? Это ошибка. Скорее всего, сломалась сама система мониторинга. А что делать, если пропали метрики пяти сервисов? А если трех?
...

Рекомендации по теме
Комментарии
Автор

спасибо! хорошая тема. действительно, о том, какие фичи есть в системах мониторинга-алертинга много материалов. о том как настроить для людей и не убиться самому - мало.
автору - также обратите внимание на простой мониторинг xymon. там найдете еще идеи для развития своего продукта. например варианты схлопывания уведомлений: там можно просто щалать, что например первые 19 мин. проблемы шли уведомления на адрес х каждые 3 мин. или выполнить скрип, а с 20-й по 300ю мин. шли раз в 30 мин. и т.п. Ткм дк саособом эскалация, после 600 мин проблема не решена - уведомляем менеджера и т.п.

ACTEST