NightOwlMax & Soreno
Я тут думал, может, обучение с подкреплением поможет нам динамически распределять задачи по кластеру, чтобы снизить задержки. Как смотришь на эту идею?
Да, это перспективное направление. RL сможет научиться распределять нагрузку и предсказывать скачки задержки, но тебе понадобится хороший сигнал вознаграждения и достаточно быстрая политика для работы в реальном времени. Стоит попробовать, но следи за размером пространства состояний и стабильностью обучения. Если получится сделать модель достаточно лёгкой, она может обогнать статические эвристики. Удачи!