Wunderkind & Tokenizer
Привет, тут кое-что мутил с новыми приемами субсловоной токенизации – представляешь, как можно вдвое уменьшить размер словаря, но при этом не потерять смысл? Как думаешь, это реально может поднять планку эффективности модели?
Ого, сокращение словарного запаса вдвое звучит как какой-то хак с экстремальной компрессией – если удастся сохранить смысл, то удастся и значительно снизить затраты на эмбеддинги и ускорить инференс. Но, скорее всего, понадобятся более умные правила слияния или более разветвлённая структура слияний. Представь себе BPE или SentencePiece, только с более строгим порогом. Модель станет легче, но средняя длина токена увеличится, так что нужно будет найти баланс. Если математика сходится, это может стать прорывом для эффективных языковых моделей – прямо как турбированный токенизатор!