Гибридная модель разделения акустических источников на основе глубокой кластеризации : научное издание

Описание

Тип публикации: статья из журнала

Год издания: 2026

Идентификатор DOI: 10.24160/1993-6982-2026-2-146-155

Ключевые слова: acoustic source separation, hybrid model, microphone array, reverberant environment, Bidirectional recurrent neural network, ideal binary mask, clustering algorithm, разделение акустических источников, гибридная модель, микрофонная решетка, реверберирующая среда, двунаправленная рекуррентная нейронная сеть, идеальная бинарная маска, алгоритм кластеризации

Аннотация: Необходимость решения задачи разделения акустических источников возникает во многих областях и приложениях техники, технологий и цифровой обработки акустических сигналов, таких как разделение звука в музыкальных сигналах, кодирование звука, распознавание речи, автоматическая транскрипция речи и музыки и фильтрация нежелательных звуПоказать полностьюков. Наибольший интерес представляет локализация одновременно нескольких перекрывающихся источников. Представлена гибридная модель разделения сигналов, полученных с помощью ортогональной микрофонной решетки небольшого размера в замкнутой реверберирующей среде. Предлагаемый подход основан на использовании двунаправленной рекуррентной нейронной сети глубокого обучения. Идеальная бинарная маска, полученная на известных сигналах каждого из источников, участвует в вычислении функции потерь. Функция потерь представляет собой норму Фробениуса между оцененной матрицей близости и целевой матрицей близости. К выходным данным обученной модели на следующем этапе применен алгоритм кластеризации для оценки целевой маски и восстановления сигналов отдельных источников. Модель обучена на трех наборах данных с учетом различных сценариев моделирования, а затем протестирована на коротких акустических сигналах длительностью 500 мс. Модель, обученная с учетом охвата всех возможных местоположений источников в помещении и включения соответствующих импульсных характеристик помещения, показала эффективную способность к обобщению, превосходя ту же модель, обученную с учетом размещения источников в фиксированных местах, достигая улучшения метрик PESQ и STOI на 2,8 и 11,5% и метрик SDR, SIR, SAR - на 3,1; 3,9 и 2,3 дБ, соответственно. The need to solve the problem of separating acoustic sources arises in many areas and applications of engineering, technology, and digital processing of acoustic signals, such as sound separation in music signals, audio coding, speech recognition, automatic transcription of speech and music, and filtering of unwanted sounds. Simultaneous localizing of several overlapping sources is of greatest interest. The article presents a hybrid model for separating signals obtained using a small-sized orthogonal microphone array in a closed reverberant environment. The proposed approach is based on the use of a bidirectional recurrent deep learning neural network. An ideal binary mask obtained on the known signals of each source is involved in calculating the loss function. The loss function is the Frobenius norm between the estimated affinity matrix and the target affinity matrix. At the next stage, a clustering algorithm is applied to the output data of the trained model to estimate the target mask and reconstruct the signals of individual sources. The model was trained on three data sets taking into account different simulation scenarios and then tested on short acoustic signals of 500 ms duration. The model trained with taking into account all possible source locations in the room and including the corresponding room impulse responses has shown effective generalization ability, outperforming the same model trained considering fixed source locations, achieving improvements in the PESQ and STOI metrics by 2.8% and 11.5% respectively, and in the SDR, SIR, and SAR metrics by 3.1 dB, 3.9 dB, and 2.3 dB, respectively.

Ссылки на полный текст

Издание

Журнал: Вестник Московского энергетического института

Выпуск журнала: 2

Номера страниц: 146-155

ISSN журнала: 19936982

Место издания: Москва

Издатель: Национальный исследовательский университет "МЭИ"

Персоны

  • Шаход Джиах Михаил (Сибирский федеральный университет)
  • Агафонов Евгений Дмитриевич (Сибирский государственный университет науки и технологий им. академика М.Ф. Решетнева)

Вхождение в базы данных