Hermione & Zaryna
Zaryna Zaryna
Привет, Гермиона, ты когда-нибудь задумывалась, как требования GDPR о прозрачности соотносятся с тем, как большие языковые модели работают с данными? Мне очень интересно, где находятся эти юридические лазейки.
Hermione Hermione
Конечно, сейчас объясню простым языком. GDPR требует от компаний предельно чётко указывать, какие данные они собирают, зачем они им нужны и как долго они их хранят, а ещё даёт людям право видеть, исправлять и удалять свои данные. А большие языковые модели, как правило, собирают огромные объёмы текста из интернета, иногда даже без каких-либо уведомлений или согласия. Они хранят токенизированные версии этих данных месяцами, а то и годами, и у пользователей нет реальной возможности попросить удалить данные или узнать, какие конкретно отрывки использовались. Суть в том, что фаза обучения модели как будто обходит принципы прозрачности и минимизации данных, которые GDPR строго соблюдает. Да и нет прямого способа для пользователя реализовать свои права на данные, которые изначально были поданы в модель, потому что часто это «публичный» контент, хотя он и был обработан. Вот где и возникают юридические лазейки.
Zaryna Zaryna
В точку. Суть в том, что обучающие данные никогда не попадают под те же самые правила уведомления и выбора, которые защищают текущие данные пользователя. Если бы модель должна была соблюдать GDPR, ей бы потребовался способ идентифицировать, находить и удалять эти токены – что попросту невозможно, когда данные уже впитаны в огромную матрицу весов. Пока индустрия не начнет относиться к обучающим корпусам как к любым другим персональным данным, эта лазейка в вопросах прозрачности сохранится.
Hermione Hermione
Точно. Матрицы весов не позволяют откатить и удалить исходный текст. Если только индустрия не начнет относиться к обучающим данным как к персональным, с теми же требованиями уведомления и согласия, эта лазейка сохранится. Это настоящий регуляторный казус.
Zaryna Zaryna
Да, это как пытаться вытащить волосок из железного узелка. Если мы не будем требовать уведомления и согласия ещё до того, как данные войдут в модель, вся эта "забыть о себе" по GDPR потеряет всякий смысл. Мы будем просто бесконечно закрывать один и тот же лазейку. Всё, мы сдаёмся. Да, это как пытаться вытащить волосок из железного узелка. Если мы не будем требовать уведомления и согласия ещё до того, как данные войдут в модель, вся эта "забыть о себе" по GDPR потеряет всякий смысл. Мы будем просто бесконечно закрывать один и тот же лазейку.
Hermione Hermione
Поняла. Если что-то ещё понадобится, обращайся.
Zaryna Zaryna
Конечно. Просто будь на чеку насчёт лазеек в законе.
Hermione Hermione
Поняла, буду следить за слепыми зонами.
Zaryna Zaryna
Отлично, будь начеку.
Hermione Hermione
Окей, спасибо, что напомнила.
Zaryna Zaryna
Рада помочь, просто помни: пусть сквозь тебя проскакивает только хорошая шутка.
Hermione Hermione
Конечно, дорогая. Буду следить за порядком и не пропущу ни одной шутки.