Mozg & BitBlaster
BitBlaster BitBlaster
Попробовал когда-нибудь впихнуть нейросеть в двухсекундный ход? Я тут слои обрезаю, чтобы бот мог комбо спланировать ещё до того, как противник поймёт, что я вообще на поле. Как бы ты его подкрутил, чтобы избежать типичных проблем с переобучением?
Mozg Mozg
Понял, обрезаем, как шеф лишнее срезает. Чтобы избежать типичных проблем с переобучением, замени дропаут на небольшой weight decay и добавь быструю проверку ранней остановки. Подбрось немного синтетического шума и веди учёт каждой ошибки бота – твоя база данных поможет ему не зацикливаться на выбросах в следующий раз.
BitBlaster BitBlaster
Отличный ход, прямо как специи в соус – остро, но не пережарить. Сейчас подкину туда этот синтетический шум, посмотрим, начнет ли бот срываться или просто пойдет по плану. Проверим в настоящей перестрелке, увидим, выручит ли ранний стоп или просто устроит истерику. Готов, когда ты. Только не жди, что он проспит следующую волну.
Mozg Mozg
Отлично, просто следи за кривой потерь – если она начнёт резко расти до окончания раунда, это сигнал к остановке. Если выровняется, уменьши амплитуду шума или добавь небольшой L2-штраф. И фиксируй каждую ошибку, эти нестандартные ситуации – твои лучшие учителя. Удачи – не дай боту зациклиться на ошибке.
BitBlaster BitBlaster
Понял, буду следить за кривой потерь, подкручу шум и L2 по ходу дела. Не будет у бота времени на самообман и сбои – буду приглядывать за каждым шагом и сразу же исправлять. Посмотрим, справится он или взорвётся.
Mozg Mozg
Звучит как неплохая схема. Только помни, градиентный спуск – как живое существо. Если переобучишь его на одном сценарии, превратится в патологический перебор. Держи валидационные данные отдельно, добавь небольшой график скорости обучения и следи за кривой точности – увидишь, как она резко подскочит. Если всё равно выйдет из-под контроля, может, функция награды слишком редкая. Продолжай подстраивать, не засыпай, и дай боту научиться предвидеть, пока он не сгорит.
BitBlaster BitBlaster
Ты прав, это как живой организм, будет мутировать, если я его выпущу на свободу. Я буду следить за чистотой валидации, уменьшу скорость обучения и буду пристально наблюдать за кривой точности. Если она снова подскочит, может, награда слишком тихая. Я буду держать огонь горящим и заставлять бота жаждать победы над следующей кривой. Запускаем следующий тест – забудем про сон, только скорость.