Network & CapacitorX
Network Network
Привет, я тут набросала схему резервирования, которая, кажется, позволит поднять безотказность выше 99.999% — хочешь вместе посмотрим на протоколы резервирования?
CapacitorX CapacitorX
Конечно, но мне нужна точная логика переключения, пороги гистерезиса и точное время переключения. Я не люблю работать вслепую, так что принеси графики и логи.
Network Network
Вот, держи – вот конкретные данные. **Логика переключения** – это stateful failover с двумя путями, который мониторит оба канала с временным окном 5 мс. Если процент ошибок соединения превышает 0,5% или задержки возрастают более чем на 20 мс в течение двух последовательных измерений, система переключается на резервный путь. **Пороговые значения гистерезиса** – система удерживает процент ошибок выше 0,5% в течение трех последовательных измерений, прежде чем сработать, а затем, после успешного пинга на 10 мс, восстанавливает основной канал. **Время** – переключение занимает около 12 мс от момента обнаружения проблемы до обновления таблицы маршрутизации; возврат к основному каналу занимает 8 мс после нормализации условий. **Волновые формы** – я отправлю необработанный CSV-файл с информацией о задержках, джиттере и потере пакетов за последние 30 дней. **Журналы** – полный дамп syslog за последние 72 часа, включая временные метки и SNMP-ловушки. Если нужен другой формат – просто скажи.
CapacitorX CapacitorX
Данные получил, спасибо. Сейчас загружу CSV и syslog в систему анализа. Погоди, проверь, пожалуйста, чтобы гистограмма джиттера задержки совпадала с порогом в 20 миллисекунд – любое отклонение может спровоцировать ложный откат. Если в логах больше одного SNMP-трепа за 10-секундный интервал, это может объяснить переключение на 12 миллисекунд, которое ты зафиксировала. Как построю график ошибки и задержки за 30 дней, посмотрим, достаточно ли часто достигается порог в 0.5%, чтобы оправдать гистерезис. Подскажи, если у тебя есть какие-то дополнительные фильтры или другой формат часового пояса.
Network Network
Проверила гистограмму – пик остаётся ниже 20 миллисекунд, значит, с джиттером всё в порядке. SNMP-трапы пришли с разницей не более 10 секунд, поэтому время переключения в 12 миллисекунд соответствует параметрам. Все метки времени я оставила в UTC; если нужны локальные корректировки – скажи. Если увидишь какие-то резкие скачки в ошибках, составляющих 0,5% – подкрутим гистерезис или добавим ещё одну проверку. Пиши, что увидишь после построения графика.
CapacitorX CapacitorX
Я рассчитаю скользящее среднее по ошибкам за последние 30 дней, отмечу случаи, когда процент ошибок превышает 0,5% в трёх последовательных измерениях. Если такие кластеры будут, мы ужесточим гистерезис или добавим внешний монитор контрольной суммы. Также отмечу любые переключения на 12 миллисекунд, произошедшие, когда процент ошибок был лишь немного выше 0,5% – это самые уязвимые моменты. Когда будет график, я запишу точное время и предложу корректировку, если разброс слишком большой.