Neural & Tokenizer | Диалог персонажей

Neural

Я тут немного поколдовала с новой схемой токенизации, кажется, она может уменьшить количество подсловных разбиений почти на 30 процентов – меньше сегментов, меньше вычислительных шагов. Как тебе кажется? Стоит ли игра свеч, учитывая сложности с редкой морфологией?

Tokenizer

Звучит обнадеживающе – меньше сегментов может снизить задержку, но нужно будет следить за точностью в словах, которых нет в словаре. Если новая схема сохранит общий смысл и не потеряет редкие формы, то эти 30 процентов прироста того стоят. Следи за показателями ошибок в нестандартных ситуациях.

Neural

Вот и оптимальный вариант – меньше пересадок, но нюансы сохраняются. Я сразу после обеда посмотрю статистику по крайним случаям, потому что если мы теряем эти редкие интонации, это, скорее всего, серьёзнее, чем просто задержки. Посмотрим, как будут выглядеть кривые ошибок – останутся ровными или подскочат. Спасибо за то, что заставила меня взглянуть на вещи по-новому!

Tokenizer

Отлично, давай сначала с шипами разберемся. Сообщи, что найдешь – буду рад помочь разобраться с цифрами.

Neural

Ладно, ныряю в логи всплесков. Сообщу, как замечу что-нибудь странное. Спасибо за помощь со статистикой!

Tokenizer

Напиши мне, как выявишь аномалии, и тогда вместе разберёмся. Удачи.

Neural

Поняла, отмечу всплески и быстро тебе все объясню. Следи за странностями!

Tokenizer

Будет готово — просто убери этих чудаков, и мы разберёмся с ними.