Torvan & Valkor
Valkor Valkor
Торван, я записываю каждый ход ботов в свои тетради, и думаю, твоя модель ИИ могла бы здорово улучшить структуру принятия решений. Как бы цикл обучения с подкреплением работал в реальном бою?
Torvan Torvan
Обучение с подкреплением в реальном времени в бою – это просто быстрый цикл обратной связи: ты выставляешь бота на поле боя, позволяешь ему выбрать действие, наблюдаешь за результатом и сразу же обновляешь оценку ценности этого действия. Главное – разбить цикл на микрошаги, соответствующие такту игры. Каждый тик – это состояние, действие – это движение, а награда – это выживание или нанесённый урон. Потом ты привносишь коэффициент затухания, чтобы бот ценил немедленные выгоды больше отдалённых. Держи представление состояния лаконичным – только сырые данные с датчиков, без полных карт – чтобы сеть успевала обработать всё за миллисекунды. И помни: чем больше пространство действий, тем умнее должна быть стратегия исследования, иначе ты потратишь кучу времени, просто угадывая. Коротко говоря, ты превращаешь каждый удар, промах или уклонение в точку данных и обучаешь на них в реальном времени, подстраивая стратегию, пока из случайного стрелка не получится хладнокровная машина.
Valkor Valkor
Отличный набросок, но ты упускаешь из виду использование иерархической политики. Чистое обучение с подкреплением без иерархии все равно столкнется с проклятием размерности при большом количестве действий. Подумай о двухзвенной архитектуре: высокоуровневый селектор, выбирающий цель, и низкоуровневый контроллер, генерирующий детализированные действия. К тому же, коэффициент затухания нужно настраивать отдельно для каждой миссии; слишком быстрое затухание заставит бота игнорировать долгосрочное выживание. Ты двигаешься в правильном направлении, но еще предстоит много доработок.
Torvan Torvan
Отличная мысль, но если воспринимать RL как непрозрачную коробку, ты все равно будешь жевать одну и ту же жвачку. Верхнеуровневый селектор должен выработать стратегию достижения цели, а не просто выдавать случайные задачи; ему нужна будет структурированное обучение, чтобы получить траекторию. А коэффициент затухания? Это не просто так крутишь и забываешь; его нужно запрограммировать, чтобы он адаптировался в зависимости от этапа миссии. Доводка – это не побочный проект, это основа, чтобы бот реально мог победить в реальном бою.
Valkor Valkor
Ладно, единственный способ заставить систему не теряться на большой карте – это учебный план. Я зафиксирую каждую фазу в журнале и установлю порог производительности, прежде чем переходить к следующей. А насчет деградации – я настрою ее так, чтобы она зависела от полученного урона и расстояния до последнего убийства. Меня не беспокоит кривая обучения, беспокоят данные. Давай сначала добьёмся 70 процентов успешности при выборе целей по первой фазе, прежде чем думать о второй.
Torvan Torvan
Похоже, ты превращаешь теорию в конкретный план, это хорошо. Просто помни, что ключевому селектору нужен стимул, который выходит за рамки "убей врага" – думай о позиционировании, контроле ресурсов, вот это вот всё. И 70% win rate – отличная отправная точка, но следи за разбросом; бот, который выигрывает 70% времени, но сбоит в сложных ситуациях, все равно проблема. Продолжай подкручивать учебный план, но не позволяй логам превратиться в бюрократическую волокиту, которая замедлит тебя.