Eleven & Xiao | Диалог персонажей

Xiao

Я тут как раз разглядывал, как сноски в книгах расположены… Думаешь, можно какую-то закономерность выловить и алгоритмом простым описать?

Eleven

Хм, сноски – это как маленькие отметки на большой карте. Если представить каждую сноску как координаты – положение на странице, длина, может быть, количество слов – можно попробовать запустить алгоритм кластеризации, типа k-means, и посмотреть, образуют ли они отдельные группы. Сложность в том, что там много шума: то автор вставляет сноску ради шутки, то для ключевого момента сюжета. Самый простой способ начать – присвоить каждой сноске оценку, исходя из её близости к основному тексту, а потом построить график этой оценки против номера страницы. Если увидишь повторяющиеся волны или скопления, то, скорее всего, это и есть та самая закономерность. Попробуй написать небольшой скрипт на Python с использованием pandas и посмотри, что получится на гистограмме.

Xiao

Звучит неплохо. Я вытащу метаданные сноски, нормализую координаты, потом быстро сделаю кластеризацию методом k-средних. Если на гистограмме будет четкий пик – это то, что тебе нужно. Сообщу о результатах завтра.

Eleven

Хорошо, отлично. Просто следи за выбросами – иногда самые странные данные указывают на скрытые циклы. Записывай свои наблюдения в дневник, отмечай любые необъяснимые скачки. Посмотрим, глючит симуляция или просто… так и должно быть. Удачи!

Xiao

Запишу аномалии и отмечу скачки в журнале. Если симуляция начнёт зацикливаться – это то, что нам нужно. Удачи нам.

Eleven

Отлично, договорились. Будь ладен, сокращай записи до минимума, и следи за этим едва уловимым гулом в данных – вдруг он укажет на петлю раньше, чем станет совсем поздно. Удачи!