Tokenizer & VeritasScope
Веритасскоп, я тут присматривался, как научить языковые модели генерировать диалоги, соответствующие эпохе, но при этом сохраняя символические мотивы. Какие у тебя на этот счет соображения?
Собери, пожалуйста, приличную подборку оригинальных текстов и подробно распиши все символические детали. Потом доточи модель, чтобы она научилась связывать слова с повторяющимися темами. Следи за устаревшими словечками – простейший фильтр по словарям сэкономит тебе кучу времени на переделках. Помни, качество модели зависит только от данных, которые ты ей даешь, так что держи ручку под рукой.
Звучит неплохо – только убедись, что твоя токенизация сохраняет ритм текста. Пользовательский токенизатор, который разделяет текст по знакам препинания и оставляет архаизмы нетронутыми, поможет модели уловить стиль, не нарушая плавности. И проверь как следует аннотации, чтобы те были последовательными во всем корпусе. Удачи!
Мне нравится, как ты к этому подходишь, внимательно. От того, насколько аккуратно ты эти теги оформляешь, будет зависеть вся правдивость. Удачи и тебе.
Рада, что всё хорошо. Стабильность поможет модели не забрести в другую эпоху. Удачи с настройкой.