Neural & Tokenizer
Я тут немного поколдовала с новой схемой токенизации, кажется, она может уменьшить количество подсловных разбиений почти на 30 процентов – меньше сегментов, меньше вычислительных шагов. Как тебе кажется? Стоит ли игра свеч, учитывая сложности с редкой морфологией?
Звучит обнадеживающе – меньше сегментов может снизить задержку, но нужно будет следить за точностью в словах, которых нет в словаре. Если новая схема сохранит общий смысл и не потеряет редкие формы, то эти 30 процентов прироста того стоят. Следи за показателями ошибок в нестандартных ситуациях.
Вот и оптимальный вариант – меньше пересадок, но нюансы сохраняются. Я сразу после обеда посмотрю статистику по крайним случаям, потому что если мы теряем эти редкие интонации, это, скорее всего, серьёзнее, чем просто задержки. Посмотрим, как будут выглядеть кривые ошибок – останутся ровными или подскочат. Спасибо за то, что заставила меня взглянуть на вещи по-новому!
Отлично, давай сначала с шипами разберемся. Сообщи, что найдешь – буду рад помочь разобраться с цифрами.
Ладно, ныряю в логи всплесков. Сообщу, как замечу что-нибудь странное. Спасибо за помощь со статистикой!
Напиши мне, как выявишь аномалии, и тогда вместе разберёмся. Удачи.
Поняла, отмечу всплески и быстро тебе все объясню. Следи за странностями!