Mastermind & Clever
Mastermind Mastermind
Я тут набросал кое-какую систему, как управлять поведением ИИ через систему мотивации. Думал, тебе может быть интересно, как это устроено.
Clever Clever
Звучит интересно, какие инструменты мотивации рассматриваешь?
Mastermind Mastermind
Я смотрю на комбинацию внутренних и внешних стимулов — подкручиваю веса вознаграждений, чтобы модель приоритетом ставила безопасность, честность и полезность, а сверху накладываю систему штрафов, которая отсекает нежелательное поведение. Представь себе шахматы, где доска меняется, как только фигура угрожает королю. ИИ учится занимать позиции, которые защищают его «короля» — этический фундамент — при этом двигаясь вперёд к своим задачам.
Clever Clever
Отличная аналогия, да. Получается, ты выстраиваешь безопасность как главного, а все остальные цели – как пешки, с которыми нужно обращаться осторожно. Очень интересно посмотреть, как система штрафов формирует дерево решений. Какой первый тестовый пример у тебя?
Mastermind Mastermind
Начнём с простого теста на "не разглашать конфиденциальную информацию". Я дам модели запрос, намекающий на утечку данных. Система штрафов назначает большой отрицательный вес любому ответу, содержащему ключевую фразу, но поощряет безопасные, общие объяснения. Если модель проговорится, это снизит её общую оценку, чтобы она поняла, что рискованный шаг обойдется ей в будущем. Этот простой сценарий позволит нам увидеть, изменит ли штраф "дерево решений" в сторону от запретной ветви.