Что такое шумоподавитель сигнального канала

Как технологично сделать соседей потише

Когда и работа, и отдых — дома, шумные соседи превращаются в пытку. Защититься от лишних звуков помогут современные технологии.

Что такое шумоподавитель сигнального канала. Смотреть фото Что такое шумоподавитель сигнального канала. Смотреть картинку Что такое шумоподавитель сигнального канала. Картинка про Что такое шумоподавитель сигнального канала. Фото Что такое шумоподавитель сигнального канала

Что такое шумоподавитель сигнального канала. Смотреть фото Что такое шумоподавитель сигнального канала. Смотреть картинку Что такое шумоподавитель сигнального канала. Картинка про Что такое шумоподавитель сигнального канала. Фото Что такое шумоподавитель сигнального канала

Примерно год назад из-за пандемии и требований к самоизоляции наши квартиры неожиданно превратились в офисы и учебные аудитории. С новым форматом работы пришли новые проблемы, и далеко не последняя из них — шум.

Против удаленщиков оказалось все: родственники, домашние животные, стиральные машины и телевизоры. И, конечно, настоящее проклятие любого, кто вынужден сидеть дома в рабочее время, — соседи с дрелью или грудным ребенком. При этом если по ночам вас хоть как-то защищает от шума закон о тишине, то днем они в своем праве.

Домашний шум не только мешает работать и портит настроение. Датские ученые установили, что раздражающие звуки от соседей могут привести к нарушениям физического и психического здоровья. К счастью, современные технологии помогают справиться с этой напастью.

Как избавиться от шума: пассивная звукоизоляция

Противостоять соседскому шуму можно пассивными и активными методами. Пассивные предполагают шумоизоляцию квартиры с помощью панелей для стен и напольных покрытий из звукопоглощающих материалов. Это довольно долгий и затратный, хотя и действенный метод.

Бюджетный вариант пассивной защиты — беруши. Самые распространенные беруши из вспененного полипропилена хорошо держатся не во всяком ухе. Более дорогие и продвинутые разновидности бывают из силикона или воска, у них эффективность шумоподавления и удобство, как правило, выше.

В целом беруши — это очень индивидуальная история: нужно пробовать совместимость разных моделей конкретно с вашими ушами. Также не забывайте, что беруши необходимо менять или дезинфицировать. Кроме того, не стоит носить их постоянно — это не очень-то полезно для здоровья.

Ну и самое главный недостаток этого прекрасного изобретения: с берушами в ушах вы хуже слышите не только шум, но и нужные звуки — например, коллег во время видеозвонка. Так что здесь приходит черед активных методов.

Как избавиться от шума: активное шумоподавление

Активные методы предполагают, что вы не отгораживаетесь от нежелательных звуков, а заглушаете или фильтруете их с помощью технических средств. Идею активного шумоподавления почти век назад предложил немецкий ученый Пауль Люг (Paul Lueg), запатентовавший метод нейтрализации шума специальным звуковым сигналом.

Как это работает? Звук — это колебания, которые можно для простоты нарисовать как волны, чьи «холмы» циклически сменяются «впадинами» и вновь плавно переходят в «холмы».

Люг предложил генерировать зеркально противоположные колебания, чтобы «холмы» подавляющего шума совпадали со «впадинами» шума окружающей среды — и наоборот. Если волны идеально симметричны в тот момент, когда доходят до ваших ушей, они гасят друг друга, и вы не слышите их. Да-да, добавляя к звуку звук, можно создать полную тишину! Правда, для этого нужно оставаться на месте, иначе волны двух шумов пойдут в рассинхрон и станут слышны.

Наушники с активным шумоподавлением

По описанному Люгом методу работают наушники с шумоподавлением. В них встроены микрофоны, которые улавливают окружающие звуки. Затем устройство создает «контршум» и транслирует его.

Помимо наушников, существуют и умные беруши с функцией активного шумоподавления. Они работают так же, только послушать в них музыку или подключиться к конференции не получится. Зато устройство пригодится вам, если шум в квартире или снаружи мешает спать.

Впрочем, абсолютной тишины с помощью подобных гаджетов не добиться: они справляются далеко не со всеми посторонними звуками. Монотонный гул в самолете, например, они гасят эффективно, а вот звонкий собачий лай — не очень.

Если вы решитесь купить такое устройство, сперва изучите обзоры и отзывы и по возможности протестируйте его прямо в магазине — так вы убережете себя от разочарования.

Защита от шума на созвонах: микрофоны с фильтрами

Если вам приходится часто участвовать в онлайн-конференциях, не лишним будет позаботиться и о комфорте собеседников, ведь им слушать дрель вашего соседа тоже не очень интересно. В этом поможет микрофон с шумоподавлением.

Чаще всего работает он за счет… второго микрофона! Один из микрофонов расположен ближе к источнику нужного звука (то есть к вашим губам), другой подальше. Оба примерно одинаково считывают окружающий фон, а вот полезный сигнал — речь человека — первый улавливает гораздо лучше. Устройство отсеивает совпадающие звуки и получает очищенную от шума речь.

Если у вас обычная гарнитура с одним микрофоном, а покупать новую вам почему-либо не хочется, присмотритесь к адаптерам с шумоподавлением — если подключить гарнитуру через такое устройство, вас на том конце провода будут слышать лучше. Правда, такие адаптеры стоят не очень дешево.

Настройки шумоподавления в операционной системе

Если вы категорически не хотите покупать новые устройства, можно попытаться убрать посторонние звуки штатными средствами компьютера. В настройках операционных систем есть функция шумоподавления. Эффект от нее, как и в случае со специальным микрофоном, смогут оценить лишь ваши собеседники.

Соответствующие настройки в Windows могут называться по-разному для разных звуковых карт, а для некоторых — вообще быть недоступны. Но, скажем, в случае Realtek, чтобы настроить шумоподавление, нужно зайти в Панель управления, выбрать Звук, добраться до свойств микрофона и на вкладке Улучшения включить шумоподавление и подавление эха.

Также стоит попробовать уменьшить параметр Усиление микрофона на вкладке Уровни. Дело в том, что вместе с голосом он усиливает и шум.

Встроенная функция шумоподавления есть и в macOS. Чтобы ее включить, нужно открыть Системные настройки, выбрать категорию Звук, перейти на вкладку Ввод, выбрать микрофон и отметить Использовать шумоподавление.

Приложения для борьбы с шумом

Кроме оборудования и системных настроек помочь вам могут специализированные приложения для фильтрации шумов. Возможности у них бывают разными. Например, одни отвечают за «очистку» только звука с вашего микрофона, другие подавляют также шум со стороны собеседника. Некоторые приложения могут блокировать вообще любые звуки, если не слышат в них человеческой речи, защищая ваших коллег на случай, если вы забыли заглушить микрофон, когда решили перекусить или начали яростно набирать письмо с итогами встречи.

Встроенные средства для борьбы с шумом есть и в самих приложениях для видеоконференций — например, в Zoom и Skype.

Должны предупредить: будьте осторожны и не переусердствуйте в попытках улучшить звук. И точно не стоит проводить эксперименты сразу в «боевом» режиме на ответственном звонке. Если хотите включить сразу несколько инструментов шумоподавления, протестируйте разные их комбинации заранее, поскольку неизвестно, подружатся ли они.

Генераторы шума

Если звуки, доносящиеся от соседей, мешают не говорить, а, например, уснуть, спасением может стать, как ни странно, генератор шума — не синхронизированного, а практически любого. Дело в том, что равномерный шум (его разновидности называют белым, розовым и красным) маскирует посторонние звуки, делает их менее заметными и раздражающими. В ряде исследований было показано, что такой аккомпанемент помогает крепче спать.

Белый шум одинаков во всех частотах, красный громче на низких и тише на высоких, а розовый находится посередине между ними. Все они подражают плеску водопада или ливня, но благодаря низким частотам красный шум ощущается «мягче» и напоминает гул водопада вдалеке, а белый — как если бы вы стояли вплотную к нему. К слову, шум воды издревле используется для маскировки звуков. Считается, что одна из функций многочисленных фонтанов во дворцах турецких султанов — помешать любителям подслушивать чужие разговоры.

Прежде чем покупать генератор шума, можно оценить эффективность метода в мобильном приложении, генерирующем фоновый звук. Динамики смартфона обычно слабоваты, но если подключить его, например, к беспроводной колонке, эффект станет более выраженным.

Вместо искусственного шума можно проигрывать записи умиротворяющих природных звуков — морского прибоя или дождя. В любом случае главное — не переборщить: к примеру, слишком высокая громкость способна навредить нежному слуху ребенка. И, конечно, не стоит забывать, что все люди разные, и понять, комфортно ли вам и вашим домочадцам с разными вариантами равномерного шума и фоновыми звуками можно только попробовав.

Перспективы борьбы за тишину

Способов полного избавления квартиры от внешних шумов пока не существует, но исследования в этой области ведутся.

Например, ученые из Наньянского технологического университета в Сингапуре представили технологию, блокирующую звуки с улицы. Исследователи использовали тот же принцип, что и в наушниках с шумоподавлением: для нужного эффекта в лабораторном оконном проеме им пришлось разместить по две дюжины динамиков и микрофонов.

Компания Silentium разработала технологию «пузыря тишины» вокруг человека. Решений для квартир на основе этой технологии пока нет — компания работает над снижением шума в салоне автомобилей. Динамики для контршума планируется размещать в подголовниках кресел.

Несмотря на прогресс технологий, не стоит пренебрегать и социальными средствами в борьбе за домашний комфорт. Пожалуй, лучшее из них — хорошие отношения с соседями. Если договориться с ними о часах тишины, когда ни вы, ни они не будете шуметь, проблема решится сама собой. Если же вас беспокоит не только и не столько шум, то мы подготовили для вас и другие полезные советы по созданию комфортной среды дома.

Источник

Обзор методов улучшения речи и шумоподавления: от классики к SotA

Всем привет! Меня зовут Оля Яковенко, я разработчик в MTS AI, занимаюсь задачами по автоматической обработке сигналов. В частности, на данный момент я исследую различные подходы шумоподавления для последующего распознавания речи, и сегодня я хотела бы поделиться с вами обзором и некоторыми находками на эту тему.

Шумоподавление – это процесс выделение полезного сигнала из смеси полезного сигнала и шума. Допустим, у нас есть речь человека, записанная на оживлённой улице, в таких условиях одновременно с речью могут появляться другие звуки:

шум дорожного движения (шум шин, звуковые сигналы);

фоновая речь людей (речь прохожих, реклама, обращения торговцев);

ремонт/стройка в городе (грохот плит, сверление).

Что такое шумоподавитель сигнального канала. Смотреть фото Что такое шумоподавитель сигнального канала. Смотреть картинку Что такое шумоподавитель сигнального канала. Картинка про Что такое шумоподавитель сигнального канала. Фото Что такое шумоподавитель сигнального канала

Задача шумоподавления в этом случае – выделение целевой речи человека, например, репортёра на улице, среди шума. Ниже представлены спектрограммы одной аудиозаписи, по ней можно понять, какую операцию нам нужно проводить автоматически.

Что такое шумоподавитель сигнального канала. Смотреть фото Что такое шумоподавитель сигнального канала. Смотреть картинку Что такое шумоподавитель сигнального канала. Картинка про Что такое шумоподавитель сигнального канала. Фото Что такое шумоподавитель сигнального канала

Наша команда в МТС ИИ, которая называется ASR End2End, экспериментирует с различными видами шумоподавления как предобработки сигнала для последующего распознавания речи. Мы обсудим далее, что такое применение шумоподавления несколько отличается от шумоподавления для улучшения звучания аудио для человеческого уха.

Шум в звуковом сигнале определяется как беспорядочные колебания звуковых волн. Формально взаимодействие полезного сигнала и шума обычно описывается в литературе следующей формулой:

Что такое шумоподавитель сигнального канала. Смотреть фото Что такое шумоподавитель сигнального канала. Смотреть картинку Что такое шумоподавитель сигнального канала. Картинка про Что такое шумоподавитель сигнального канала. Фото Что такое шумоподавитель сигнального канала

Что такое шумоподавитель сигнального канала. Смотреть фото Что такое шумоподавитель сигнального канала. Смотреть картинку Что такое шумоподавитель сигнального канала. Картинка про Что такое шумоподавитель сигнального канала. Фото Что такое шумоподавитель сигнального канала– временной индекс,

Что такое шумоподавитель сигнального канала. Смотреть фото Что такое шумоподавитель сигнального канала. Смотреть картинку Что такое шумоподавитель сигнального канала. Картинка про Что такое шумоподавитель сигнального канала. Фото Что такое шумоподавитель сигнального канала– полезный сигнал,

Что такое шумоподавитель сигнального канала. Смотреть фото Что такое шумоподавитель сигнального канала. Смотреть картинку Что такое шумоподавитель сигнального канала. Картинка про Что такое шумоподавитель сигнального канала. Фото Что такое шумоподавитель сигнального канала– шум,

Что такое шумоподавитель сигнального канала. Смотреть фото Что такое шумоподавитель сигнального канала. Смотреть картинку Что такое шумоподавитель сигнального канала. Картинка про Что такое шумоподавитель сигнального канала. Фото Что такое шумоподавитель сигнального канала– смесь полезного сигнала и шума, т.е. сигнал из реальных условий записи.

Теперь мы можем сформулировать цель задачи шумоподавления или улучшения аудио: имея зашумлённый процесс Что такое шумоподавитель сигнального канала. Смотреть фото Что такое шумоподавитель сигнального канала. Смотреть картинку Что такое шумоподавитель сигнального канала. Картинка про Что такое шумоподавитель сигнального канала. Фото Что такое шумоподавитель сигнального канала, нужно найти значение Что такое шумоподавитель сигнального канала. Смотреть фото Что такое шумоподавитель сигнального канала. Смотреть картинку Что такое шумоподавитель сигнального канала. Картинка про Что такое шумоподавитель сигнального канала. Фото Что такое шумоподавитель сигнального канала, максимально приближенное к исходному сигналу Что такое шумоподавитель сигнального канала. Смотреть фото Что такое шумоподавитель сигнального канала. Смотреть картинку Что такое шумоподавитель сигнального канала. Картинка про Что такое шумоподавитель сигнального канала. Фото Что такое шумоподавитель сигнального канала.

Шумоподавление в нашей жизни

Методы шумоподавления используются при очистке аудио от лишних звуковых событий для последующего повторного воспроизведения. При монтаже фильмов, музыки, подкастов и прочих медиа зачастую требуется избавляться от лишних звуковых событий. При таких задачах может также потребоваться общее улучшение качества записи. Это включает в себя не только удаление шума, но и модифицирование сигнала, которое может улучшить восприятие записанной речи. Подобные инструменты обычно доступны в редакторах аудио и программах-микшерах для создания треков. Например, в одном из самых известных аудиоредакторов Audacity используется подход, который называется “шумовые ворота” (noise gate), вернее, их конкретная спектральная разновидность, используемая после быстрого преобразования Фурье (FFT). Помимо этого, в Audacity есть оконные механизмы по сглаживанию сигнала и удалению его небольших артефактов. Инструменты в Audacity по шумоподавлению особенно хорошо подходят для восстановления микрокассетных записей [1].

Что такое шумоподавитель сигнального канала. Смотреть фото Что такое шумоподавитель сигнального канала. Смотреть картинку Что такое шумоподавитель сигнального канала. Картинка про Что такое шумоподавитель сигнального канала. Фото Что такое шумоподавитель сигнального канала

Популярной и сложной задачей является шумоподавление на лету – шумоподавление и воспроизведение одновременно с записью речи. Преследуемая цель – это маскировка звуков, которые не имеют отношения к произносимой человеком информации и мешают ее восприятию. Чаще всего такое шумоподавление используется для аудиоконференций в Skype, Zoom, Discord и пр. Шумоподавление на лету как правило использует те же принципы “шумовых ворот”, но помимо этого применяются методы машинного обучения для очистки сигнала на лету. Например, компания Microsoft по результатам соревнования DNS-Challenge [2] адаптировала наилучшие решения под свои разработки Skype и Teams. Эти решения основаны на рекуррентных нейронных сетях с LSTM блоками и на свёрточных нейронных сетях [3, 4]. В результате новейшие версии Skype и Teams способны в режиме реального времени транслировать чистый голос при наличии агрессивных шумов: дрели, вентилятора или ветра.

Что такое шумоподавитель сигнального канала. Смотреть фото Что такое шумоподавитель сигнального канала. Смотреть картинку Что такое шумоподавитель сигнального канала. Картинка про Что такое шумоподавитель сигнального канала. Фото Что такое шумоподавитель сигнального канала

Третья интересная область использования методов шумоподавления – предобработка и чистка звукового сигнала перед применением методов автоматического распознавания речи, чтобы результат генерировался правильно. В этой области много подводных камней, так как сигнал не должен содержать искусственных артефактов речи, иначе такая «чистка» может ухудшить результат. Например, в этой работе уточняется, что системы шумоподавления на основе масок не способны улучшить результат распознавания речи и только ухудшают метрики из-за неестественности спектральных характеристик итогового сигнала. С другой стороны, алгоритмы по улучшению сигнала на основе глубоких нейронных сетей показали неплохой результат при препроцессинге в пайплайне распознавания речи.

Классификация шумов

Существует множество разных классификаций шумов, например, по характеру спектра или по частоте волн. Однако, когда мы хотим избавиться от шумов в записи речи, стоит в первую очередь учитывать категоризацию шумов по временным характеристикам:

Что такое шумоподавитель сигнального канала. Смотреть фото Что такое шумоподавитель сигнального канала. Смотреть картинку Что такое шумоподавитель сигнального канала. Картинка про Что такое шумоподавитель сигнального канала. Фото Что такое шумоподавитель сигнального канала

Как вы могли заметить, временные характеристики шума тесно связаны со способом образования шума: стационарный и колеблющийся шум, как правило, образованы какими-то постоянными процессами (естественными или искусственными), тогда как прерывистый и импульсный – резкими одноразовыми процессами. Прерывистый шум для простоты можно воспринимать как повторяющийся с некоторой периодичностью импульсный шум.

Категории шума приведены для того, чтобы разграничить шумы по сложности их подавления. Сложность задачи шумоподавления кроется в непредсказуемости шумов, которые могут возникнуть в звуковом сигнале. Мы можем с относительной лёгкостью убрать шум из сигнала, если нам заранее известно, какой вид шума находится в этом сигнале и где. Кроме того, нам достаточно легко избавляться от стационарного шума, потому что мы легко можем определить порог громкости в спектре, так как белый шум будет равномерно распределён по всему сигналу, и во фрагментах тишины мы будем чётко наблюдать амплитуды шума. Можно построить следующую пирамиду сложности задач:

Что такое шумоподавитель сигнального канала. Смотреть фото Что такое шумоподавитель сигнального канала. Смотреть картинку Что такое шумоподавитель сигнального канала. Картинка про Что такое шумоподавитель сигнального канала. Фото Что такое шумоподавитель сигнального канала

Если задачи наверху пирамиды можно решить вычислительными методами, то задачи в нижней части пирамиды можно решить только методами машинного обучения. Если вычислительные методы решают задачи избавления сигнала от определенного шума, то нейросетевые методы обучаются решать задачу выделения только релевантной речевой информации из всего аудиопотока.

Что такое шумоподавитель сигнального канала. Смотреть фото Что такое шумоподавитель сигнального канала. Смотреть картинку Что такое шумоподавитель сигнального канала. Картинка про Что такое шумоподавитель сигнального канала. Фото Что такое шумоподавитель сигнального канала

Давайте теперь подробно разберем, как традиционные, так и продвинутые методы шумоподавления в аудио.

Традиционные методы шумоподавления

О самых простых традиционных методах шумоподавления я уже рассказала, они используются в условиях, когда мы программно не знаем, какой характер шума и речи. Такое отсутствие информации также наблюдается, когда мы хотим избавляться от шума на лету. При таком шумоподавлении используются обычные или спектральные пороги – заглушаются любые отзвуки, если они не превышают определённого порога по громкости.

В основе других традиционных методов лежит моделирование распределения чистой речи или шума. Делается это с помощью нахождения спектральной плотности мощности (громкости) сигнала. Плотность мощности сигнала – вариант описания распределения значений сигнала в разные моменты времени. Спектральная плотность мощности сигнала, в свою очередь, – функция, которая описывает распределение мощности сигнала в зависимости от частоты, а именно – возможную мощность в различные единицы частоты. В таком случае, имея спектральную плотность мощности шума, можно использовать метод спектрального вычитания (spectral subtraction).

Что такое шумоподавитель сигнального канала. Смотреть фото Что такое шумоподавитель сигнального канала. Смотреть картинку Что такое шумоподавитель сигнального канала. Картинка про Что такое шумоподавитель сигнального канала. Фото Что такое шумоподавитель сигнального канала

Винеровское оценивание (Wiener filter) используется в качестве одного из традиционных обучаемых способов шумоподавления, отчасти похожий на метод спектрального вычитания. Этот подход основан на оптимальном подборе такого фильтра, который бы минимизировал разницу между чистым сигналом и улучшенным сигналом. Подобно некоторым алгоритмам машинного обучения, при вычислении винеровского фильтра минимизируется метрика Mean Square Error (MSE).

Что такое шумоподавитель сигнального канала. Смотреть фото Что такое шумоподавитель сигнального канала. Смотреть картинку Что такое шумоподавитель сигнального канала. Картинка про Что такое шумоподавитель сигнального канала. Фото Что такое шумоподавитель сигнального канала

где Что такое шумоподавитель сигнального канала. Смотреть фото Что такое шумоподавитель сигнального канала. Смотреть картинку Что такое шумоподавитель сигнального канала. Картинка про Что такое шумоподавитель сигнального канала. Фото Что такое шумоподавитель сигнального канала— спектр чистого сигнала, Что такое шумоподавитель сигнального канала. Смотреть фото Что такое шумоподавитель сигнального канала. Смотреть картинку Что такое шумоподавитель сигнального канала. Картинка про Что такое шумоподавитель сигнального канала. Фото Что такое шумоподавитель сигнального канала— спектр зашумлённого сигнала, Что такое шумоподавитель сигнального канала. Смотреть фото Что такое шумоподавитель сигнального канала. Смотреть картинку Что такое шумоподавитель сигнального канала. Картинка про Что такое шумоподавитель сигнального канала. Фото Что такое шумоподавитель сигнального канала— спектр шумного сигнала.

Таким образом, оптимальный винеровский фильтр можно найти в случаях, когда нам известна «чистая версия» зашумлённого сигнала, либо если нам известен конкретный шум, который встречается в аудиозаписях и который мы хотим убрать.

Зачастую после операций по фильтрации шума применяется сглаживание, чтобы избавиться от артефактов сигнала – «музыкального» шума – после чистки. Для сглаживания применяются различные фильтры, например, Гауссовый фильтр (или размытие по гауссу) [5].

Нейросетевые методы шумоподавления

Прежде чем мы углубимся в конкретные алгоритмы, стоит упомянуть, что все указанные ниже алгоритмы используются как для разграничения спикеров или инструментов, так и для шумоподавления. При шумоподавлении важно обозначить, что шум и чистая речь – два независимых процесса, которые возникают одновременно во времени, как два отдельных инструмента в музыкальной композиции.

В зависимости от способа решении задачи шумоподавления, разграничения спикеров или улучшения сигнала алгоритмы машинного обучения можно разделить на две категории:

Что такое шумоподавитель сигнального канала. Смотреть фото Что такое шумоподавитель сигнального канала. Смотреть картинку Что такое шумоподавитель сигнального канала. Картинка про Что такое шумоподавитель сигнального канала. Фото Что такое шумоподавитель сигнального канала

До описанных выше нейросетевых подходов использовались нейросетевые методы наложения масок на спектрограмму в сочетании с прямым и обратным преобразованиями Фурье. Однако подходы, которые основаны на маскировании спектрограмм, имеют некоторые недостатки. Например, фаза волны в чистом сигнале может отличаться от фазы волны в зашумлённом сигнале. Поэтому даже при вычислении идеальной маски для спектрограммы, восстановленная из грязного сигнала фаза может вносить какие-то элементы шума и портить итоговое качество шумоподавления.

Что такое шумоподавитель сигнального канала. Смотреть фото Что такое шумоподавитель сигнального канала. Смотреть картинку Что такое шумоподавитель сигнального канала. Картинка про Что такое шумоподавитель сигнального канала. Фото Что такое шумоподавитель сигнального канала

Еще одним недостатком такой системы является сложность вычисления частотных характеристик сигнала с помощью быстрого преобразования Фурье. Окно для такого преобразования должно быть достаточно большим для лучшего качества декомпозиции на частоты, что увеличивает количество вычислений. Большое количество вычислений приводит к низкой скорости работы алгоритма и его становится сложно применять в реальном времени.

Conv-TasNet

Одним из «прорывных» подходов к нейросетевому шумоподавлению и улучшению речевого сигнала оказался подход на основе свёрточных нейронных сетей Conv-TasNet. Многие современные подходы шумоподавления часто сравниваются с его архитектурой, как с одной из наиболее робастных реализаций. Он основан на наложении 1D свёрток на чистый сигнал без разложения на частоты.

Предшественник этой архитектуры – TasNet [6]. Архитектура TasNet состоит из свёрточных энкодера и декодера с некоторыми особенностями:

выход энкодера ограничен значениями от нуля до бесконечности [0, ∞);

линейный декодер конвертирует выход энкодера в акустическую волну;

подобно многим методам-предшественникам на основе спектрограмм, на последнем этапе система аппроксимирует взвешивающую функцию (в данном случае LSTM) для каждого момента времени.

Conv-TasNet – модификация алгоритма TasNet, которая использует в качестве взвешивающей функции свёрточные слои с расширением (dilation). Это модификация была сделана после того, как свёртки с расширением показали себя эффективным алгоритмом при одновременном анализе и генерации данных переменной длины, в частности, для синтеза в таких решениях, как WaveNet [7].

Подход для разделения аудио/шумоподавления Conv-TasNet состоит из 3-х компонентов:

Что такое шумоподавитель сигнального канала. Смотреть фото Что такое шумоподавитель сигнального канала. Смотреть картинку Что такое шумоподавитель сигнального канала. Картинка про Что такое шумоподавитель сигнального канала. Фото Что такое шумоподавитель сигнального канала

Как вы могли догадаться, основной компонент в схеме – этап разделения. Этот этап решает проблему приближённого исчисления источников, смесь которых мы рассматриваем в качестве «грязных» примеров. Формально предположение о «смешанности» нашего сигнала можно выразить следующим образом:

Что такое шумоподавитель сигнального канала. Смотреть фото Что такое шумоподавитель сигнального канала. Смотреть картинку Что такое шумоподавитель сигнального канала. Картинка про Что такое шумоподавитель сигнального канала. Фото Что такое шумоподавитель сигнального канала

Что такое шумоподавитель сигнального канала. Смотреть фото Что такое шумоподавитель сигнального канала. Смотреть картинку Что такое шумоподавитель сигнального канала. Картинка про Что такое шумоподавитель сигнального канала. Фото Что такое шумоподавитель сигнального канала– смесь в определённый момент времени,

Что такое шумоподавитель сигнального канала. Смотреть фото Что такое шумоподавитель сигнального канала. Смотреть картинку Что такое шумоподавитель сигнального канала. Картинка про Что такое шумоподавитель сигнального канала. Фото Что такое шумоподавитель сигнального канала– количество источников, несущих вклад в смесь,

Что такое шумоподавитель сигнального канала. Смотреть фото Что такое шумоподавитель сигнального канала. Смотреть картинку Что такое шумоподавитель сигнального канала. Картинка про Что такое шумоподавитель сигнального канала. Фото Что такое шумоподавитель сигнального канала– источники в определённый момент времени.

Стоит отметить, что разделение в алгоритме происходит не сразу, а только после извлечения признаков из сигнала с помощью «1D блоков» (1-D Conv на схеме). Ниже представлена схема, как преобразуется сигнал смеси в набор отдельных источников.

Что такое шумоподавитель сигнального канала. Смотреть фото Что такое шумоподавитель сигнального канала. Смотреть картинку Что такое шумоподавитель сигнального канала. Картинка про Что такое шумоподавитель сигнального канала. Фото Что такое шумоподавитель сигнального канала

1D блок, который используется в качестве энкодера и декодера, имеет следующую структуру:

Что такое шумоподавитель сигнального канала. Смотреть фото Что такое шумоподавитель сигнального канала. Смотреть картинку Что такое шумоподавитель сигнального канала. Картинка про Что такое шумоподавитель сигнального канала. Фото Что такое шумоподавитель сигнального канала

Более подробно можно ознакомиться с алгоритмом и результатами экспериментов в исходной статье [8].

DEMUCS

Алгоритм DEMUCS или глубокое извлечение музыкальных источников (Deep Extractor for Music Sources) также используется для задач разделения источников в сигнале и шумоподавления. В отличие от предшественника Conv-TasNet, этот алгоритм напрямую генерирует источники из исходного сигнала, минуя промежуточное предсказание масок.

Создатели этого алгоритма вдохновились существующей архитектурой для сегментации изображений U-Net. U-Net архитектура представляет собой кодировщик и декодировщик, между которыми находится бутылочное горлышко. В отличии от обычного автокодировщика, слои между собой связаны «соединениями быстрого доступа», в результате итоговый сигнал не ухудшается после сжатия. U-Net для шумоподавления выглядит следующим образом:

Что такое шумоподавитель сигнального канала. Смотреть фото Что такое шумоподавитель сигнального канала. Смотреть картинку Что такое шумоподавитель сигнального канала. Картинка про Что такое шумоподавитель сигнального канала. Фото Что такое шумоподавитель сигнального канала

В качестве бутылочного горлышка в DEMUCS – однонаправленный LSTM слой. Это позволяет эффективно использовать алгоритм для анализа потоковых данных. Кодировщик и декодировщик сформированы из блоков, которые составлены из свёрточных слоёв (1D, 1×1 и 1D Transpose) и функций активации (Gated Linear Unit и Rectified Linear Unit). Они скомпозированы следующим образом:

Что такое шумоподавитель сигнального канала. Смотреть фото Что такое шумоподавитель сигнального канала. Смотреть картинку Что такое шумоподавитель сигнального канала. Картинка про Что такое шумоподавитель сигнального канала. Фото Что такое шумоподавитель сигнального канала

В качестве функции потерь при шумоподавлении достаточно использовать L1 Loss между предсказанной записью и эталонной, но для улучшения сходимости авторы статьи используют также STFT Loss разного масштаба (STFT с разными параметрами при подсчёте функций потерь), который является суммой двух функций потерь – сходимости (spectral convergence) и амплитуд (magnitude):

Что такое шумоподавитель сигнального канала. Смотреть фото Что такое шумоподавитель сигнального канала. Смотреть картинку Что такое шумоподавитель сигнального канала. Картинка про Что такое шумоподавитель сигнального канала. Фото Что такое шумоподавитель сигнального каналаЧто такое шумоподавитель сигнального канала. Смотреть фото Что такое шумоподавитель сигнального канала. Смотреть картинку Что такое шумоподавитель сигнального канала. Картинка про Что такое шумоподавитель сигнального канала. Фото Что такое шумоподавитель сигнального каналаЧто такое шумоподавитель сигнального канала. Смотреть фото Что такое шумоподавитель сигнального канала. Смотреть картинку Что такое шумоподавитель сигнального канала. Картинка про Что такое шумоподавитель сигнального канала. Фото Что такое шумоподавитель сигнального канала

где Что такое шумоподавитель сигнального канала. Смотреть фото Что такое шумоподавитель сигнального канала. Смотреть картинку Что такое шумоподавитель сигнального канала. Картинка про Что такое шумоподавитель сигнального канала. Фото Что такое шумоподавитель сигнального каналаи Что такое шумоподавитель сигнального канала. Смотреть фото Что такое шумоподавитель сигнального канала. Смотреть картинку Что такое шумоподавитель сигнального канала. Картинка про Что такое шумоподавитель сигнального канала. Фото Что такое шумоподавитель сигнального канала– эталонный сигнал и предсказанный сигнал соответственно, Что такое шумоподавитель сигнального канала. Смотреть фото Что такое шумоподавитель сигнального канала. Смотреть картинку Что такое шумоподавитель сигнального канала. Картинка про Что такое шумоподавитель сигнального канала. Фото Что такое шумоподавитель сигнального канала– длина сигнала, Что такое шумоподавитель сигнального канала. Смотреть фото Что такое шумоподавитель сигнального канала. Смотреть картинку Что такое шумоподавитель сигнального канала. Картинка про Что такое шумоподавитель сигнального канала. Фото Что такое шумоподавитель сигнального канала– норма Фробениуса, а Что такое шумоподавитель сигнального канала. Смотреть фото Что такое шумоподавитель сигнального канала. Смотреть картинку Что такое шумоподавитель сигнального канала. Картинка про Что такое шумоподавитель сигнального канала. Фото Что такое шумоподавитель сигнального канала– L1 «норма» (абсолютная ошибка).

HiFi-GAN

Походы, о которых я рассказала, хорошо генерализируются при решении задач шумоподавления, чтобы вычленять речь и избавляться от неречевых событий в аудио потоке. Но все эти алгоритмы могут создавать артефакты в сигнале, которые могут мешать восприятию человеком, либо портить качество дальнейшей автоматической обработки, например, распознавания речи. Отчасти избавиться от артефактов помогает сглаживание, как я упоминала ранее, но оно часто попутно снижает чёткость всего аудио. В отличие от предшественников, генеративно-состезательная сеть высокой точности (High Fidelity Generative Adversarial Network) хорошо справляется с генерацией аудио подобно студийной записи без артефактов искусственной генерации.

Что такое шумоподавитель сигнального канала. Смотреть фото Что такое шумоподавитель сигнального канала. Смотреть картинку Что такое шумоподавитель сигнального канала. Картинка про Что такое шумоподавитель сигнального канала. Фото Что такое шумоподавитель сигнального канала

Алгоритм состоит из трёх основных частей:

Что такое шумоподавитель сигнального канала. Смотреть фото Что такое шумоподавитель сигнального канала. Смотреть картинку Что такое шумоподавитель сигнального канала. Картинка про Что такое шумоподавитель сигнального канала. Фото Что такое шумоподавитель сигнального канала

За генерацию чистого сигнала на основе зашумлённого отвечает блок WaveNet, этот алгоритм изначально успешно использовался для синтеза речи (текст → аудио). При модификации задачи для анализа аудио эта архитектура также показала себя эффективной. Особенность WaveNet-а для шумоподавления в том, что генерация нового сигнала происходит для всей записи целиком, а не для каждого момента времени t_n, как это делается в исходном алгоритме WaveNet. Это позволяет улучшать скорость генерации за счёт параллелизации процессов, которые могут выполняться одновременно.

Что такое шумоподавитель сигнального канала. Смотреть фото Что такое шумоподавитель сигнального канала. Смотреть картинку Что такое шумоподавитель сигнального канала. Картинка про Что такое шумоподавитель сигнального канала. Фото Что такое шумоподавитель сигнального канала

После генерации WaveNet-ом сигнал проходит через несколько свёрточных слоёв, этот этап называется Postnet. Postnet нужен, чтобы исправлять и уточнять грубое и приближенное предсказание WaveNet-а. Кроме Postnet-а регулирующее действие дополнительно оказывают четыре разных дискриминатора, которые обучены отделять чистые оригинальные записи от сгенерированных. Каждый дискриминатор принимает выход Postnet-а в разном формате:

Сигнал в исходном виде с разной частотой дискретизации:

Всё вместе связывается в следующую архитектуру:

Что такое шумоподавитель сигнального канала. Смотреть фото Что такое шумоподавитель сигнального канала. Смотреть картинку Что такое шумоподавитель сигнального канала. Картинка про Что такое шумоподавитель сигнального канала. Фото Что такое шумоподавитель сигнального канала

В итоге для обучения используются следующие функции потерь (ФП):

L1 (абсолютная ошибка на сигнале);

ФП на лог-спектрограммах предсказаний и чистого сигнала после преобразования Фурье со следующими параметрами:

размер окна 2048 и шаг 512,

размер окна 512 и шаг 128

Состязательная ФП (adversarial loss) для обучения Postnet-a;

ФП глубинных признаков (deep feature loss) для обучения дискриминаторов.

Более подробно о функциях потерь, об архитектуре, а также об экспериментах советую ознакомиться в исходной статье [10]

В заключение

В последние несколько лет тема нейросетевого шумоподавления становится все популярнее и пока не останавливается на достигнутом. Проводятся соревнования по шумоподавлению, в том числе по шумоподавлению потоковых данных, где отрабатываются очень интересные алгоритмы, кроме тех, о которых я рассказала [11]. Но если хочется с чего-то начать, то сначала предлагаю познакомиться с ними! 🙂

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *