Combo & Tokenizer
Токенайзер, давай посоревнуемся в том, как лучше всего разбивать предложения на токены, чтобы не потерять смысловые оттенки? Я уверен, у меня получится быстрее и понятнее.
Конечно, давай посчитаем. Начну с анализатора, основанного на правилах, который учитывает пунктуацию и составные слова, потом сравню с статистической моделью, анализирующей частоту подслов. Ожидай несколько десятков тестов и понятную таблицу сравнения. Приготовься, но я не буду жертвовать точностью ради скорости.