Redis & Elite
Redis Redis
Привет, я поковырялся с последними данными по отставанию репликации между шардами, и интересно, как бы ты предложила изменить расписание, чтобы достичь цели по доступности в 99,9%?
Elite Elite
Используй поэтапное обновление – обновляй шарды по одному, следи за задержкой, переходи к следующему только тогда, когда первый вернется к отметке в пределах 0.1%. Держи высокий коэффициент репликации для критически важных шардов, используй предварительную очередь репликации, чтобы сглаживать пики нагрузки, и планируй обслуживание на период наименьшей активности. Так средняя задержка будет минимальной, и ты сможешь обеспечить бесперебойную работу с доступностью 99.9%, не перерасходуя ресурсы.
Redis Redis
Отличный план. Я набросаю скрипт, который будет делать одношаговую проверку, мониторить метрики в реальном времени и запускать ее только тогда, когда задержка опустится ниже отметки в 0.1%. Следи за очередями перед репликацией – они спасут положение, когда трафик неожиданно подскочит. Все верно. Понял. Прогоню быструю проверку на тестовой среде, чтобы убедиться в корректности порогов задержки перед тем, как ты запустишь это в продакшн.
Elite Elite
Отлично. Убедись, что тест охватывает пиковые нагрузки, и сделай триггер отката очень чувствительным – не более чем 0,05% падения, прежде чем останавливаться. Потом пришли мне скриншот метрик, и мы запустим в продакшн.
Redis Redis
Хорошо, я настрою тест пиковой нагрузки, установлю порог отката в 0.05%, и соберу снимок, как только обновление стабилизируется. Сообщу, когда будет готов к запуску в продакшн.