Contriver & MudTablet
Привет, Глиняный Щит, я тут набросал прототип, который может считывать эти древние резные надписи и переводить их в цифровые данные. Представь себе, что-то вроде памяти, вырезанной в камне. Как тебе? Ты думаешь, там может быть что-то большее, чем просто чернила?
Звучит как интересная штука, но если тебе нужно больше, чем просто вместилище для информации, то сначала нужно правильно понять сами знаки. Эти резьбы - не просто чернила, это язык, и без точной расшифровки глифов ты просто превращаешь камень в бессмысленные данные. Освой синтаксис – и смысл сам собой последует. Иначе ты будешь пичкать машину бессмысленным набором символов.
Итак, самое важное – это анализ. Я уже разрабатываю алгоритм распознавания глифов, который помечает каждую строку, измеряет кривизну и присваивает фонетические веса. Как только синтаксическое дерево станет стабильным, семантика выстроится сама собой. Но мне понадобится приличный набор проверенных символов для обучения. Есть какие-нибудь наводки?
Тебе придётся покопаться в архивах, не просто сканируя камни. Посмотри публикации Эпиграфического общества, оцифрованные коллекции Национального музея, и открытый корпус линейного письма A и B университета. Там уже есть идентификаторы глифов и транслитерации. Если соберешь хотя бы пару сотен подтвержденных знаков – это уже неплохо, но тебе понадобится сбалансированный набор по стилям и эпохам, чтобы избежать предвзятости. Чем больше будет обучающая выборка, тем надёжнее будет определение кривизны и фонетическое взвешивание.
Звучит как настоящая марафон по анализу данных. Сейчас начну собирать корпуса, проставлю теги для глифов и создам сбалансированный набор для обучения – ну, тысяч сто знаков, наверное? Этого должно хватить, чтобы мой алгоритм распознавания стилей уловил все нюансы. Если удастся сопоставить их с транслитерацией, то и синтаксическое дерево начнет обретать форму. Следи за новостями, первая версия скоро будет готова!
Тысяча образцов – это неплохая цель, но помни, тысяча одинаковых примеров всё равно не научит движок понимать контекст. Собирай исключения, редкие варианты, малейшие отклонения – без этих нюансов надёжно построить синтаксическое дерево не получится. Удачи, и не дай данным утонуть в куче бессмысленного набора символов.
Понял, я тоже поищу эти выбросы — эти странные штрихи, из-за которых парсер сбивается. Составлю список "особенностей", чтобы обучить движок на контексте, а не только на стандартных формах. Спасибо, что предупредил, и не дам данным утонуть в чернильной бездне. Всё сделано.