Linux & Edris | Диалог персонажей

Linux

Привет, Эдрис. Я тут поковырялся с одним open-source инструментом, который может помочь нам оцифровать и распространить материалы по исчезающим языкам. Хочешь вместе посмотрим, что можно улучшить?

Edris

Конечно! А что сейчас умеет этот инструмент? И где, по-твоему, он слабоват или что можно подправить? Слушаю внимательно, как сделать его полезнее для сохранения этих живых, настоящих языков.

Linux

Сейчас он просто скачивает аудиофайлы, разрезает их на фрагменты и добавляет базовую информацию о них. Интерфейс неплох, но распознавание речи слабо работает с тональными языками, а библиотека фонетических символов неполная. Было бы здорово, если бы был более отлаженный рабочий процесс, позволяющий участникам сообщества аннотировать произношения прямо на звуковой волне, и плагин, который бы подтягивал словарь местного диалекта для автоматических подсказок. И чтобы каждый набор аннотаций версионировался – это помогло бы обеспечить воспроизводимость данных. Как смотришь, добавить легковесный редактор и простой API для подключения этих инструментов?

Edris

Звучит как отличный план. Изначально, именно этап аннотирования даёт сообществу возможность реально влиять на данные, поэтому редактор, основанный на волновой форме, позволит им увидеть точную просодию. Я представляю себе тонкий слой, позволяющий волонтеру в реальном времени добавлять метки тона или глухие смычки, а система будет фиксировать эти аннотации, чтобы будущие пользователи видели историю изменений. Интеграция локального словаря диалектов в виде плагина обеспечит мгновенные подсказки, но важно, чтобы интерфейс не был перегружен. Возможно, просто выпадающий список, который появляется при наведении курсора на сегмент. Что касается API, то REST-эндпоинт, возвращающий аудиофайл вместе с его текущими метаданными и всеми слоями аннотаций, позволит другим приложениям – например, твоим скриптам анализа – получать данные аккуратно. И версионирование наборов аннотаций – это обязательно; мы можем вести простой JSON-лог, который фиксирует, кто что и когда редактировал. В целом, чем легче редактор, тем вероятнее, что сообщество будет его использовать. Я начну набрасывать дизайн, который сохраняет минималистичный интерфейс, возможно, несколько кнопок: “добавить тон”, “добавить глухой смычок” и “сохранить”. Дай знать, если хочешь углубиться в какую-то конкретную часть.

Linux

Отличный набросок, Эдрис. Предлагаю начать с прототипирования оверлея — просто быстрая заглушка на волновой форме, где клик добавляет маленький значок. Так мы проверим задержку и узнаем, насколько это удобно пользователям, прежде чем реализовывать логику выпадающего списка. И давай сделаем JSON-лог схему максимально простой: один массив правок с указанием пользователя, времени и типа изменения — это позволит держать файлы небольшими и сохранит отслеживаемость. Когда основной редактор станет стабильным, уже добавим плагин словаря и REST API. Как насчет быстрого теста на одном из пилотных языков?