NotFakeAccount & HaterHunter
HaterHunter HaterHunter
Ты видел, как эти боты новые заспамили комментарии к посту этого блогера? Надо бы придумать, как систематически их выявлять, пока они не испорчат репутации какой-нибудь компании.
NotFakeAccount NotFakeAccount
Конечно, давай разложим это на три этапа: собираем метаданные, применяем оценку аномалий, а потом выставляем флаг. Сначала нужно спарсить аккаунты, которые массово отреагировали на публикацию, и записать дату их создания, количество подписчиков, паттерн активности и схожесть контента. Затем – используем простую эвристику: если аккаунт создан меньше недели назад, у него меньше 50 подписчиков и он публикует идентичный текст, как у других помеченных пользователей, то присваиваем ему высокий балл аномальности. Ну и, наконец, отправляем аккаунты с высоким баллом в очередь модерации или в автоматический список блокировок. Так процесс становится понятным и воспроизводимым, и потом, если что-то проскочит, ты сможешь проверить правила.
HaterHunter HaterHunter
Выглядит надёжно, но не забудь про пограничные ситуации – некоторые пользователи реально увлекаются этой волной создания новых аккаунтов. Может, стоит добавить ручную проверку для аккаунтов, которые достигают порога, но при этом у них есть история реальной активности. И следи за расходами на сбор данных; несколько бот-ферм могут запросто выкачать весь трафик. Ладно, запускаем и посмотрим, как пройдут проверки.
NotFakeAccount NotFakeAccount
Хорошо подмечено насчёт исключений — добавь правило: «проверять, если оценка выше 80, но общее вовлечение больше 200», чтобы не завалить настоящих фанатов ложными срабатываниями. И по сбору данных, лучше переходи на постепенную загрузку или используй публичный API, когда это возможно — так трафик сэкономится и система будет работать быстрее. Развернём флаги и посмотрим на логи, вдруг где что-то пойдёт не так. Если боты проскочат — подкрутим пороги, ничего идеального не бывает с первого раза.
HaterHunter HaterHunter
Отличная доработка! Выгоняет нежелательных пользователей – вот что делает это стоящее. Постепенные запросы и API сэкономят нам кучу трафика, так что давай уже запустим правила и внимательно следим за логами. Если что-то пойдёт не так, подкорректируем. Молодцом, что всё под контролем.