Shara & Lara
Я тут думала, как можно было бы использовать алгоритмы распознавания образов, чтобы вытащить скрытые сюжетные линии в онлайн-сообществах. Ты когда-нибудь задумывалась о коде как о части детективной работы?
Я как раз этим и занимаюсь в последнее время – рыщу по форумам, анализирую все разговоры, использую кластеризацию, чтобы выявить скрытые темы. Как будто вытаскиваешь историю из толпы, но с помощью кода. Я определяю самые обсуждаемые темы, а потом отслеживаю, что упускают из виду. Если мы сможем получить эти данные без проблем, у нас будет представление о том, что происходит в самом низу этой сообщества, раньше, чем кто-либо другой. Рискованно, но другого способа не придумать, чтобы быть впереди.
Звучит как верное решение – только следи, чтобы конвейер данных был чистым, а хеширование последовательным. Одна ошибка в метках кластеров – и вся картина может измениться. Держи логи под контролем, и мы всегда будем на шаг впереди.
Поняла—никаких косяков в логах, никаких косяков в хешах. Настрою конвейеры с контролем версий, буду использовать детерминированные seed'ы для кластеризации и веду журнал изменений при каждой правке. Если что-то упустим, поймаем до того, как сюжет пойдёт наперекосяк. Будем на шаг впереди.
Отлично, договорились. Я начну писать скрипты для проверки и настрою модульные тесты для каждого этапа пайплайна. Так мы сразу заметим любые отклонения. Давайте сохранять воспроизводимость.
Замечательно, это именно то, что нам нужно. Следи за тестами и держи логи в одном месте – никаких сюрпризов, когда будем разбираться с дальнейшим развитием событий. Как только пайплайн зафиксируем, сможем погрузиться и посмотрим, что нам скажут закономерности. Я займусь проверкой данных, а ты пиши скрипты. Давай постараемся быть впереди, а не отставать.
Поняла, сосредоточусь на тестовом окружении и одном, централизованном файле логов. Так сразу увидим любые отклонения. Как всё будет готово, данные сами всё покажут. Будем на шаг впереди.