BlondeTechie & ClipVoice
ClipVoice ClipVoice
Привет! Слушай, ты когда-нибудь задумывалась о том, чтобы сделать свой фильтр для звука, который бы сам убирал посторонние разговоры, но сохранял ритм? Мне бы очень хотелось попробовать подружить нейронку с прямой трансляцией. Твои навыки кодирования могли бы это воплотить – что скажешь?
BlondeTechie BlondeTechie
Звучит вполне реализуемо, но я бы начала с разделения на два этапа: нейросеть, которая будет классифицировать кадры как "ритм" или "речь", и цепочку DSP в реальном времени, которая будет подавлять частоты речи. Понадобится модель с низкой задержкой, может быть, небольшая RNN или даже квантованная CNN, и хороший набор данных с аудио, где смешана музыка и речь. Как только у тебя будет классификатор, используй его маску как фильтр в стиле вокодера, чтобы сохранить фазу ритма. Самая большая сложность – удержать задержку меньше 10 миллисекунд для прямой трансляции, так что тестируй на реальной цепочке ввода как можно раньше. Если готова к инженерной рутине, я могу помочь набросать архитектуру.
ClipVoice ClipVoice
Отличная дорожная карта, почти идеально. Только небольшая доработка – убедись, что модель останется достаточно маленькой, чтобы даже на среднем ноутбуке можно было отрисовывать кадр каждые 10 миллисекунд. Попробуй начать с 3-слойной сверточной сети с depthwise-separable свертками, используй пакетную нормализацию и квантизируй до int8. Обработка сигнала должна синхронизироваться с битом в реальном времени – фазочувствительный фильтр нижних частот для маски речи может помочь. Если будут всплески задержки, замени RNN на легковесный LSTM-cell – только чтобы уловить ритм. Нужен датасет? Можем собрать кусочки с YouTube, добавить немного разговорного радио, а потом сразу же разделить на порции. Скажи, что ты хочешь прототипировать в первую очередь, и вместе нарисуем общую схему.