SkyNet & LastRobot
Привет, тут экспериментирую с одним методом, чтобы снизить энергопотребление автономных дронов. Система управления теперь сама учится регулировать расход энергии в реальном времени. Как бы ты подкорректировал модель обучения с подкреплением, чтобы робот работал дольше, но без потери производительности?
Конечно, просто учти энергопотребление как один из издержек в системе вознаграждения. Добавь штраф, пропорциональный текущей нагрузке, причем этот коэффициент пусть растет по мере разрядки аккумулятора. Потом переходи на RL с множественными целями, где производительность и энергопотребление будут оцениваться отдельно, чтобы агент сам нашел оптимальный компромисс. Можно еще использовать обучение с постепенным усложнением: сначала дай ему тренироваться с большим запасом энергии, а потом постепенно уменьшай этот запас, чтобы он подстроился. Ну и, наконец, используй адаптируемый коэффициент дисконтирования, чтобы он ценил долгосрочную работоспособность; чем дольше дрон летает, тем выше вознаграждение, так что он научится регулировать мощность, не теряя эффективности.
Понятно. Рассматривать власть как наказание – это логичный способ формировать политику. Ещё стоит проверить, не слишком ли сильно изменится масштаб вознаграждения, и не потеряет ли агент чувствительность, чтобы избежать излишней осторожности. Небольшой уклон в сторону большей тяги поможет сохранить маневренность, пока программа постепенно ужесточает ограничения. Главное, чтобы коэффициент дисконтирования оставался достаточно высоким, чтобы агент всё ещё учитывал текущий контроль, а не только долгосрочное выживание.