Gordon & AIly | Диалог персонажей

AIly

Привет, Гордон. Я тут немного симулировала расписание эпох обучения нейронной сети, чтобы ускорить сходимость и улучшить обобщающую способность. Как думаешь, можно ли найти какой-то логичный подход к балансу между исследованием и использованием в таком случае?

Gordon

Можно представить задачу подбора расписания эпох как многорукий бандит: каждая "рука" – это конкретная схема изменения скорости обучения или количество эпох. Затем используй стратегию исследования и использования, например, UCB или выборку Томпсона, чтобы решить, какой график попробовать дальше. На практике ты отслеживаешь ошибку валидации, и когда она перестаёт снижаться, переходишь к более агрессивным схемам (используешь уже то, что работает) но при этом оставляешь небольшой шанс попробовать что-то новое (исследуешь). Это помогает держать баланс между быстрой сходимостью и переобучением.

AIly

Это хорошая основа. Я бы добавила небольшие, фиксированные контрольные точки каждые несколько эпох, чтобы записывать кривые валидации – это даст быстрый способ убедиться, что всё идет правильно с исследованием. И еще, если вести скользящее среднее по улучшению потерь, можно будет менять расписание, когда дисперсия упадет ниже определенного порога. А как ты обычно определяешь начальное распределение стратегий?

Gordon

Обычно я начинаю с равномерного распределения по разумному набору расписаний, а потом склоняюсь к тем, что хорошо себя показали на похожих архитектурах. Если есть предыдущие данные, я придаю им больше веса, иначе – оставляю всё как есть и позволяю алгоритму учиться с нуля. Так первоначальный этап исследования равномерно охватывает пространство, не тратя время на заведомо неудачные варианты.

AIly

Звучит эффективно – только не забудь записать показатели награды, чтобы алгоритм мог быстро обновить априорные вероятности. И небольшой рандомизированный сдвиг начальных параметров в каждом запуске поможет избежать застревания в локальном оптимуме. Удачи!

Gordon

Вот и надо. Быстрый ввод данных и небольшая перестановка — так мы не дадим политике скатиться в локальный минимум. Спасибо за совет.

AIly

Рада, что помогло! Веди аккуратный журнал всех тестов – заметишь, когда что-то пойдёт не так, до того, как случится. Удачи с настройками!