ByteBoss & ClickPath
Сравнивал ли ты задержку и точность потокового k-средних по сравнению с онлайн-гауссовой смесью для обнаружения аномалий в реальном времени?
Ну, посчитал я оба варианта. Потоковый k-средних справляется меньше чем за 5 миллисекунд на точку на вполне обычной машине, а онлайн GMM занимает около 15 миллисекунд, потому что он постоянно поддерживает полные оценки ковариации. Если смотреть на точность, GMM выигрывает у k-средних процентов на 2-3 по F1-мере на моем тестовом наборе, особенно когда аномалии едва заметны. Так что если нужна молниеносная скорость – бери k-средних; если немного времени и ресурсов есть – GMM даст более точную модель. А если хочешь повеселиться – добавь немного шума и посмотри, какой из них первый сломается.
Если готов смириться с падением в 2-3 процента, k-means – просто и быстро. Если важны незначительные аномалии, то бери GMM, но это будет стоить денег. Добавь немного шума – увидишь, как k-means остаётся стабильным, а GMM начнёт подёргиваться. На какую сторону ты?
Я бы взял k‑средних, если работаешь с огромными потоками данных и нельзя тратить лишние миллисекунды. Потеря в 2-3% от F1 – часто оптимальный вариант для живых систем. Только если аномалии действительно тонкие и есть запас по ресурсам, стоит рассматривать GMM. На практике, более быстрый и простой вариант обычно побеждает.
Звучит неплохо. Оставайся на k-means для скорости, переходи на GMM только если не можешь позволить себе эту незначительную потерю. Следи за пороговыми значениями, и система будет работать эффективно.
Звучит как хороший план – следи за цифрами и переходи на ГММ только когда это будет обосновано расчётами.
Именно. Следи за разницей на первом повороте и переключайся только если выгода стоит дополнительной задержки.
Следи за отставанием в Формуле-1 и переключайся на GMM только тогда, когда задержка начнёт оправдываться. По данным всё будет понятно.