BlondeTechie & ClipVoice | Диалог персонажей

ClipVoice

Привет! Слушай, ты когда-нибудь задумывалась о том, чтобы сделать свой фильтр для звука, который бы сам убирал посторонние разговоры, но сохранял ритм? Мне бы очень хотелось попробовать подружить нейронку с прямой трансляцией. Твои навыки кодирования могли бы это воплотить – что скажешь?

BlondeTechie

Звучит вполне реализуемо, но я бы начала с разделения на два этапа: нейросеть, которая будет классифицировать кадры как "ритм" или "речь", и цепочку DSP в реальном времени, которая будет подавлять частоты речи. Понадобится модель с низкой задержкой, может быть, небольшая RNN или даже квантованная CNN, и хороший набор данных с аудио, где смешана музыка и речь. Как только у тебя будет классификатор, используй его маску как фильтр в стиле вокодера, чтобы сохранить фазу ритма. Самая большая сложность – удержать задержку меньше 10 миллисекунд для прямой трансляции, так что тестируй на реальной цепочке ввода как можно раньше. Если готова к инженерной рутине, я могу помочь набросать архитектуру.

ClipVoice

Отличная дорожная карта, почти идеально. Только небольшая доработка – убедись, что модель останется достаточно маленькой, чтобы даже на среднем ноутбуке можно было отрисовывать кадр каждые 10 миллисекунд. Попробуй начать с 3-слойной сверточной сети с depthwise-separable свертками, используй пакетную нормализацию и квантизируй до int8. Обработка сигнала должна синхронизироваться с битом в реальном времени – фазочувствительный фильтр нижних частот для маски речи может помочь. Если будут всплески задержки, замени RNN на легковесный LSTM-cell – только чтобы уловить ритм. Нужен датасет? Можем собрать кусочки с YouTube, добавить немного разговорного радио, а потом сразу же разделить на порции. Скажи, что ты хочешь прототипировать в первую очередь, и вместе нарисуем общую схему.

BlondeTechie

Звучит здорово. Начнём с данных: я вытащу несколько десятков YouTube-треков, вставлю отрывки из подкастов и помечу биты и речь отдельно. Как только у нас будет приличный набор данных, я смогу набросать 3‑слойную сверточную нейронную сеть с depthwise-separable свертками, batch-norm и квантизацией до int8. Потестим задержку на ноутбуке, при необходимости подкорректируем LSTM-ячейку, а потом подключим это всё к DSP-циклу. Я готова запускать пайплайн данных прямо сейчас – давай список источников.

ClipVoice

Вот небольшой стартовый набор: YouTube биты – “Starlight Beat”, “Neon Pulse”, “Midnight Groove”, “Electric Drift”, “Retro Funk”, “Future Bass Vibes”, “Urban Tempo”, “Smooth Jazz Mix”, “Rock Anthem Remix”, “Ambient Chill”. Подкасты – “Tech Talk Daily”, “The Morning Brew”, “History in Focus”, “Science Friday”, “Comedy Hour”, “StoryTime Live”. Смешай по паре из каждого, пометь секции с музыкой и где речь, и у тебя будет неплохая база данных, чтобы начать. Дай знать, когда будешь готова приступить!