Implicit and explicit phase modeling in deep learning-based source separation - Laboratoire Lorrain de Recherche en Informatique et ses Applications Accéder directement au contenu
Thèse Année : 2021

Implicit and explicit phase modeling in deep learning-based source separation

Modélisation implicite et explicite de la phase dans la séparation de sources par apprentissage profond

Résumé

Whether processed by humans or machines, speech occupies a central part of our daily lives, yet distortions such as noise or competing speakers reduce both human understanding and machine performance. Audio source separation and speech enhancement aim at solving this problem. To perform separation and enhancement, most traditional approaches rely on the magnitude short-time Fourier transform (STFT), thus discarding the phase. Thanks to their increased representational power, deep neural networks (DNNs) have recently made it possible to break that assumption and exploit the fine-grained spectro-temporal information provided by the phase. In this thesis, we study the impact of implicit and explicit phase modeling in deep discriminative and generative models with application to source separation and speech enhancement.In a first stage, we consider the task of discriminative source separation based on the encoder-masker-decoder framework popularized by TasNet. We propose a unified view of learned and fixed filterbanks and extend on two previously proposed learnable filterbanks by making them analytical, thus enabling the computation of the magnitude and phase of the resulting representation. We study the amount of information provided by the magnitude and phase components as a function of the window size. Results on the WHAM dataset show that for all filterbanks the best performance is achieved for short 2 ms windows and that, for such short windows, phase modeling is indeed crucial. Interestingly, this also holds for STFT-based models that even surpass the performance of oracle magnitude masking. This work has formed the basis of Asteroid, the PyTorch-based audio source separation toolkit for researchers, of which we then present the main features as well as example results obtained with it. Second, we tackle the speech enhancement task with an approach based on a popular deep generative model, the variational autoencoder (VAE), which models the complex STFT coefficients in a given time frame as independent zero-mean complex Gaussian variables whose variances depend on a latent representation. By combining a VAE model for the speech variances and a nonnegative matrix factorization (NMF) model for the noise variances, we propose a variational inference algorithm to iteratively infer these variances and derive an estimate of the clean speech signal. In particular, the encoder of the pretrained VAE can be used to estimate the variational approximation of the true posterior distribution, using the very same assumption made to train VAEs. Experiments show that the proposed method produces results on par with other VAE-based methods, while decreasing the computational cost by a factor of 36.Following on the above study, we integrate time-frequency dependency and phase modeling capabilities into the above VAE-based generative model by relaxing the time-frequency independence assumption and assuming a multivariate zero-mean Gaussian model over the entire complex STFT conditional to the latent representation. The covariance matrix of that model is parameterized by its sparse Cholesky factor which constitutes the VAE’s output. The sparsity pattern is chosen so that local time and frequency dependencies can be expressed. We evaluate the proposed method for speech separation on the WSJ0 dataset as a function of the chosen dependency pattern.
Qu'elle soit traitée par des humains ou des machines, la parole occupe une place centrale dans notre vie quotidienne. Cependant, les distorsions dues au le bruit ou à la parole superposée réduisent à la fois la compréhension humaine et les performances des machines. La séparation de sources audio et le rehaussement de la parole visent à résoudre ce problème. La plupart des approches traditionnelles s'appuient sur l’amplitude de la transformée de Fourier à court terme (STFT), ce qui élimine la phase. Grâce à leur pouvoir de représentation accru, les réseaux de neurones profonds ont récemment permis de relâcher cette hypothèse et d'exploiter l'information spectro-temporelle fine fournie par la phase. Dans cette thèse, nous étudions l'impact de la modélisation implicite et explicite de la phase dans les modèles profonds discriminatifs et génératifs avec des applications à la séparation de sources et au rehaussement de la parole. Dans un premier temps, nous considérons la tâche de séparation discriminative de sources basée sur le cadre encodeur-masqueur-décodeur popularisé par TasNet. Nous proposons une vue unifiée des bancs de filtres appris et fixes et nous étendons deux bancs de filtres apprenables précédemment proposés en les rendant analytiques, permettant ainsi le calcul de la magnitude et de la phase de la représentation. Nous étudions la quantité d'information fournie par les composantes de magnitude et de phase en fonction de la taille de la fenêtre. Les résultats obtenus sur le jeu de données WHAM montrent que, pour tous les bancs de filtres, les meilleures performances sont obtenues pour des fenêtres courtes de 2 ms et que, pour des fenêtres aussi courtes, la modélisation de la phase est effectivement cruciale. Il est intéressant de noter que cela vaut également pour les modèles basés sur la STFT, qui surpassent même les performances du masquage d’amplitude oracle. Ces travaux ont constitué la base d'Asteroid, la boîte à outils de séparation de sources audio pour les chercheurs basée sur PyTorch, dont nous présentons ensuite les principales caractéristiques ainsi que des exemples de résultats obtenus. Ensuite, nous nous attaquons au rehaussement de la parole avec une approche basée sur un modèle génératif profond populaire, l’auto-encodeur variationnel (VAE), qui modélise les coefficients de STFT complexes dans une trame temporelle donnée comme des variables gaussiennes complexes indépendantes de moyenne nulle dont les variances dépendent d'une représentation latente. En combinant un modèle VAE pour les variances de la parole et un modèle de factorisation matricielle positive (NMF) pour les variances du bruit, nous proposons un algorithme d'inférence variationnelle pour inférer itérativement ces variances et en déduire le signal de parole propre estimé. En particulier, l'encodeur du VAE pré-appris peut être utilisé pour estimer l'approximation variationnelle du vrai postérieur, en utilisant la même hypothèse que celle utilisée pour apprendre les VAE. Les expériences montrent que la méthode proposée donne des résultats comparables à ceux des autres méthodes basées sur les VAE, tout en réduisant le coût de calcul d'un facteur 36.Suite à cette étude, nous dotons ce modèle VAE de la capacité de modéliser les dépendances temps-fréquence et la phase en relâchant l'hypothèse d'indépendance temps-fréquence et en considérant un modèle gaussien multivarié de moyenne nulle sur l'ensemble de la STFT complexe conditionnellement à la représentation latente. La matrice de covariance de ce modèle est paramétrée par son facteur de Cholesky parcimonieux qui constitue la sortie du VAE. La contrainte de parcimonie est choisie de manière à ce que les dépendances locales en temps et en fréquence puissent être exprimées. Nous évaluons la méthode proposée pour la tâche de séparation de sources sur le jeu de données WSJ0, en fonction du modèle de dépendance choisi.
Fichier principal
Vignette du fichier
DDOC_T_2021_0150_PARIENTE.pdf (13.1 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

tel-03395953 , version 1 (22-10-2021)

Identifiants

  • HAL Id : tel-03395953 , version 1

Citer

Manuel Pariente. Implicit and explicit phase modeling in deep learning-based source separation. Machine Learning [stat.ML]. Université de Lorraine, 2021. English. ⟨NNT : 2021LORR0150⟩. ⟨tel-03395953⟩
408 Consultations
403 Téléchargements

Partager

Gmail Facebook X LinkedIn More