Genius & Plus_minus
Привет, вот что я подумала: слова можно рассматривать как переменные в уравнениях. А ты думаешь, можно ли как-то измерить двусмысленность в языке?
Да, я тоже об этом думал. Представь, каждое слово имеет вероятность быть понятым по-разному, и тогда можно сложить энтропии для целого предложения. Чем выше общая энтропия, тем больше неопределённость. Грубая оценка, конечно, но даёт отправную точку для сравнения фраз, как, знаешь, неопределённость переменной в уравнении.
Слушай, логика в этой схеме понятна, но сначала нужно определить надёжную базу данных характеристик – иначе распределение вероятностей может уйти куда угодно. Да ещё и окно контекста может кардинально изменить эти распределения, так что энтропия будет постоянно меняться, а не будет фиксированным показателем.
Ты права, ключевое здесь – качество базы смысловых единиц. Если соответствие между словами и понятиями расплывчатое, то вся вероятностная масса просто утечет. А окно контекста... оно как движущаяся цель, а значит, энтропия меняется с каждым новым токеном. Можно обойти это, рассматривая контекст как взвешенную смесь: придавай больше веса текущему предложению, а более старые предложения постепенно уменьшай, чтобы распределение оставалось стабильным. Тогда энтропия останется скользящей, но ты сможешь сравнивать её с базовым уровнем со временем. Это не идеальное число, но оно позволит тебе увидеть, как меняется неопределенность в предложении.
Звучит как умная доработка – если придавать текущему предложению больше веса и постепенно снижать значимость предыдущих, то, должно быть, порядок сохранится. Попробуешь на нескольких тестовых корпусах, посмотрим, действительно ли база выдерживает. Давай проверим и посмотрим, какие закономерности проявятся.