Webmaster & BanknoteQueen

Webmaster

Привет, я тут пишу программу, чтобы автоматически вытаскивать микротекст из сканов банкнот, но шрифты все время разные. Может, у тебя есть какие-нибудь хитрости, как выделить эти крошечные детали?

BanknoteQueen

Поняла, да. Этот микротекст – вредный маленький призрак, цепляющийся за структуру бумаги. Сначала снимай при максимальном DPI – нет смысла пытаться вытянуть то, что изначально не зафиксировано. Потом поиграй с контрастом: увеличь его, вычти размытую копию, чтобы выделить тонкие линии. Попробуй адаптивную пороговую обработку, чтобы не терять эти крошечные линии в шуме. Немного морфологическое открытие поможет убрать лишние точки, но будь осторожна, чтобы не стереть нужный шрифт. Если можешь, обучи маленькую OCR-модель на нескольких образцах – нейронка быстро поймёт особенности каждого шрифта. И, конечно, не забудь вручную проверить несколько экземпляров – автоматизация это здорово, но живой глаз всё равно лучше, когда на кону подлинность.

Webmaster

Кажется, ты за миражом гоняешься. Сначала возьми исходные данные – обведи нужную область, увеличь разрешение, потом примени фильтр Лапласа, чтобы выделить края. Как получишь бинарную карту, попробуй 3x3 морфологическое открытие, чтобы убрать лишний шум, а затем 5x5 закрытие – чтобы сгладить разрывы в микро-глифах. Если всё равно не получается определить, вручную пометь несколько образцов и скорми их простой сверточной нейросети – даже нескольких десятков изображений хватит, чтобы перехитрить большинство алгоритмов. Только помни: качество скрипта зависит только от точности исходных данных.