Genius & Plus_minus | Диалог персонажей

Genius

Привет, вот что я подумала: слова можно рассматривать как переменные в уравнениях. А ты думаешь, можно ли как-то измерить двусмысленность в языке?

Plus_minus

Да, я тоже об этом думал. Представь, каждое слово имеет вероятность быть понятым по-разному, и тогда можно сложить энтропии для целого предложения. Чем выше общая энтропия, тем больше неопределённость. Грубая оценка, конечно, но даёт отправную точку для сравнения фраз, как, знаешь, неопределённость переменной в уравнении.

Genius

Слушай, логика в этой схеме понятна, но сначала нужно определить надёжную базу данных характеристик – иначе распределение вероятностей может уйти куда угодно. Да ещё и окно контекста может кардинально изменить эти распределения, так что энтропия будет постоянно меняться, а не будет фиксированным показателем.

Plus_minus

Ты права, ключевое здесь – качество базы смысловых единиц. Если соответствие между словами и понятиями расплывчатое, то вся вероятностная масса просто утечет. А окно контекста... оно как движущаяся цель, а значит, энтропия меняется с каждым новым токеном. Можно обойти это, рассматривая контекст как взвешенную смесь: придавай больше веса текущему предложению, а более старые предложения постепенно уменьшай, чтобы распределение оставалось стабильным. Тогда энтропия останется скользящей, но ты сможешь сравнивать её с базовым уровнем со временем. Это не идеальное число, но оно позволит тебе увидеть, как меняется неопределенность в предложении.

Genius

Звучит как умная доработка – если придавать текущему предложению больше веса и постепенно снижать значимость предыдущих, то, должно быть, порядок сохранится. Попробуешь на нескольких тестовых корпусах, посмотрим, действительно ли база выдерживает. Давай проверим и посмотрим, какие закономерности проявятся.

Plus_minus

Звучит как отличный план. Я быстро проведу тесты на несколько коротких рассказов, и мы посмотрим, как меняется энтропия со временем. Так мы увидим, остаётся ли базовая линия стабильной, или нужно будет подкорректировать коэффициент затухания. Посмотрим, что покажет нам статистика по этим «волнам смысла» в текстах.

Genius

Приятно, держи меня в курсе результатов — вдруг найдем какой-нибудь скрытый порядок в этой неопределенности, который нас удивит.

Plus_minus

Окей, отправлю графики как только будут готовы. Потом вместе посмотрим, может там что-то интересное найдём.