Эволюция мониторинга почты:
- "всё пигнуется - значит, работает"
- "все порты открыты - значит, работает"
- "порты отвечают и можно зайти - значит, работает"
- "состояние всех серверов активное - значит работает"
- "группа мониторинга следит за всем этим и за заявками - значит, работает"
- "косвенные признаки состояния в норме, размер очередей, нагрузка и т.п. - наверное, работает"
На каждом этапе периодически оказывалось, что таки не факт.
В итоге пришёл к тому, что ещё и настроил отправку писем раз в минуту с самого дальнего конца инфраструктуры на внешний независимый узел, который на них автоматически отвечает. Если ответы продолжают приходить - значит, работает?
Продолжаю наблюдение.
#ТрудовыеБудни