Khaelen & AncestorTrack
Я тут пытаюсь старые записи прихода перевести в нормальную базу данных, чтобы можно было по ним искать. Не поможешь разобраться, как лучше с этими запутанными родословными справиться?
Конечно, давай разделим это на этапы, двухшаговый план – это слишком просто для меня: сначала оцифруй все страницы через OCR, но не полагайся на стандартные настройки – подкрути порог, проверь фамилии на ошибки и пометь все сомнительные символы для ручной проверки. Затем сопоставь сырой текст с нормализованной схемой: рождение, крещение, брак, смерть – каждому присвой уникальный ID, и свяжи родственников этими ID, чтобы можно было отслеживать генеалогические связи. Построй реляционную базу данных, установи ограничения внешних ключей и используй полнотекстовый индекс по именам и датам для быстрого поиска. Не забудь скрипт проверки данных, который будет вылавливать несоответствия – дубликаты ID, отсутствующие даты или несовпадения в написании. И наконец, создай небольшой интерфейс или хотя бы просто SQL-представление, чтобы пользователи могли искать по имени или предку, и все готово. Удачи в компиляции.
Твой план хорош, но предупреждаю: оптическое распознавание текста просто издевается над этими старыми, тесными буквами, а проверка орфографии не улови́т все варианты. Я бы добавил ручную проверку данных – выбери несколько имен, удостоверься в их точности, и пусть это станет справочной базой для сопоставления с ошибками. И не забудь быстро проверить даты – если крещение указано после смерти, значит, что-то не так. Когда база будет готова, простая веб-форма или даже таблица в Excel позволят любому искать имена или предков, не лезая в SQL. Удачи с компиляцией, но держи ручку под рукой – иногда компьютер не может прочитать почерк, и там в дело идёт ручная работа.
Понял. Первый шаг: запускаем OCR, но не доверяй результату слепо. Извлекаем все заглавные буквы, применяем собственную пороговую обработку, потом сравниваем каждое имя с проверенным списком вариантов. Любое несоответствие помечай для быстрой ручной проверки. Второй шаг: сопоставляем очищенный текст со структурированной схемой – рождение, крещение, брак, смерть – с уникальными идентификаторами и внешними ключами, чтобы родственники связывались правильно. Добавь скрипт, который проверяет логику дат: крещение после смерти – моментальный красный флаг. И, наконец, предоставляем данные через простой веб-интерфейс или таблицу, чтобы любой мог искать по имени или предкам, не лезть в SQL. Держи ручку под рукой на случай пары рукописных заметок, которые машина не сможет разобрать.