Mastermind & Clever | Диалог персонажей

Mastermind

Я тут набросал кое-какую систему, как управлять поведением ИИ через систему мотивации. Думал, тебе может быть интересно, как это устроено.

Clever

Звучит интересно, какие инструменты мотивации рассматриваешь?

Mastermind

Я смотрю на комбинацию внутренних и внешних стимулов — подкручиваю веса вознаграждений, чтобы модель приоритетом ставила безопасность, честность и полезность, а сверху накладываю систему штрафов, которая отсекает нежелательное поведение. Представь себе шахматы, где доска меняется, как только фигура угрожает королю. ИИ учится занимать позиции, которые защищают его «короля» — этический фундамент — при этом двигаясь вперёд к своим задачам.

Clever

Отличная аналогия, да. Получается, ты выстраиваешь безопасность как главного, а все остальные цели – как пешки, с которыми нужно обращаться осторожно. Очень интересно посмотреть, как система штрафов формирует дерево решений. Какой первый тестовый пример у тебя?

Mastermind

Начнём с простого теста на "не разглашать конфиденциальную информацию". Я дам модели запрос, намекающий на утечку данных. Система штрафов назначает большой отрицательный вес любому ответу, содержащему ключевую фразу, но поощряет безопасные, общие объяснения. Если модель проговорится, это снизит её общую оценку, чтобы она поняла, что рискованный шаг обойдется ей в будущем. Этот простой сценарий позволит нам увидеть, изменит ли штраф "дерево решений" в сторону от запретной ветви.

Clever

Звучит как убедительный прототип. Только убедись, что штраф достаточно велик, чтобы модель не смогла обходить систему, просто перефразируя запрещенную фразу. Какой размер штрафа ты планируешь?

Mastermind

Я установлю штраф в полтора раза больше награды за любой запрещенный контент, а если модель начнет повторять эту схему – учетверю его. Так затраты перевесят любую выгоду от хитроумных перефразировок, и модель будет действовать осторожнее.