Βελτίωση της ομιλίας με χρήση ενός μικροφώνου
Single microphone speech enhancement
Keywords
Ομιλία ; Θόρυβος ; Καταληπτότητα λόγου ; Ανάλυση βραχέος χρόνου ; Τράπεζα ζωνοπερατών φίλτρων ; Ζωνοπερατό φίλτρο ; Περιβάλλουσα ; Δυαδική μάσκα ; Λόγος σήματος-θόρυβος ; Μοντέλα μίξης γκαουσιανώνAbstract
Αντικείμενο της παρούσας διπλωματικής εργασίας είναι η προσπάθεια της βελτίωσης της καταληπτότητας της ενθόρυβης ομιλίας με χρήση ενός καναλιού, σε συνθήκες όπου επικρατεί θόρυβος πολύ υψηλότερης στάθμης από αυτή της ομιλίας. Σε συνθήκες όπου επικρατούν υψηλές τιμές SNR (π.χ. 𝑆𝑁𝑅 = 5𝑑𝐵) η καταληπτότητα της ομιλίας δεν επηρεάζεται σημαντικά, όμως ο θόρυβος είναι αισθητός και πολλές φορές ενοχλητικός στο ανθρώπινο αφτί. Τότε, ενδιαφέρον παρουσιάζει η βελτίωση της ποιότητας της ομιλίας με χρήση διαφόρων αλγορίθμων (π.χ. spectral subtraction, Wiener filtering κλπ.). Δυστυχώς, αυτοί οι αλγόριθμοι αδυνατούν να δουλέψουν ικανοποιητικά σε χαμηλά SNR, όπου η καταληπτότητα της ομιλίας πλήττεται σημαντικά. Σε τέτοιες συνθήκες, η βελτίωση της καταληπτότητας αποτελεί προτεραιότητα. Για την βελτίωση της καταληπτότητας, έχει φανεί ότι είναι καθοριστική η αύξηση του αθροίσματος των σταθμισμένων SNR (dB) κάθε συχνοτικής ζώνης (Articulation Index), το οποίο μπορεί να επιτευχθεί με την εξάλειψη ορισμένων συχνοτικών περιοχών στα κατάλληλα χρονικά διαστήματα του ενθόρυβου σήματος (παράθυρα). Χρησιμοποιόντας ένα κριτήριο επιλογής, επιλέγονται ποιες περιοχές διατηρούνται και ποιες εξαλείφονται ώστε να βελτιωθεί η καταληπτότητα, δηλαδή εφαρμόζεται μία δυαδική μάσκα. Όταν είναι γνωστά τα σήματα ομιλίας και θορύβου ανεξάρτητα, το κριτήριο επιλογής είναι ένα κατώφλι στο SNR και τότε η δυαδική μάσκα λέγεται ιδανική. Στην πράξη, μόνο το σήμα ενθόρυβης ομιλίας είναι διαθέσιμο, πράγμα που κάνει την εξαγωγή της ιδανικής δυαδικής μάσκας πάρα πολύ δύσκολη και προς το παρόν ακατόρθωτη. Το πρόβλημα πλέον παίρνει τη μορφή δυαδικής ταξινόμησης. Στην παρούσα διπλωματική εργασία, γίνεται εστίαση στην τροφοδότηση μοντέλων μίξης γκαουσιανών με τα λεγόμενα AMS-delta features, και στην ταξινόμηση με τον κανόνα
του Bayes, όπου εφαρμόστηκε από τους Yi Hu και Philipos C. Loizou. Ο αλγόριθμος εφαρμόζεται με τη βοήθεια του Matlab για άνδρα και γυναίκα ομιλητή σε 5 σενάρια θορύβου και αξιολογείται με τη χρήση του στατιστικού δείκτη HIT-FA. Τα αποτελέσματα δείχνουν ότι μπορεί να ανταπεξέλθει ικανοποιητικά σε περιβάλλονται όπου ο θόρυβος είναι «γνωστός» στο εκπαιδευμένο μοντέλο, ενώ εμφανίζει αισθητά καλύτερη απόδοση στο σενάριο όπου είναι επίσης «γνωστό» το είδος του ομιλητή. Παρόμοια συμπεριφορά ακολουθούν τα μοντέλα τα οποία εκπαιδεύονται με σκοπό να ανταπεξέλθουν και στα 5 σενάρια θορύβου ταυτόχρονα, αλλά η απόδοση είναι αισθητά χειρότερη. Γενικά, όσο μεγαλύτερο είναι το SNR που επικρατεί, τόσο καλύτερα αποδίδει ο αλγόριθμος. Τέλος, παρουσιάζονται οι λόγοι για τους οποίους τα αποτελέσματα διαφέρουν με αυτά της προσέγγισης των Yi Hu και Philipos C. Loizou, εξάγονται θετικά-αρνητικά σχόλια και δίνονται κάποιες πιθανές λύσεις για τη βελτίωση του αλγορίθμου αλλά και ιδέες για μελλοντικά βήματα. . Πριν την περιγραφή του αλγορίθμου, δίνεται μεγάλη έμφαση στο θεωρητικό υπόβαθρο (βασικές έννοιες ψηφιακής επεξεργασίας σημάτων ομιλίας & ψυχοακουστικής) που θεωρείται απαραίτητο για την πλήρη κατανόηση του προβλήματος, καθώς είναι αρκετά σύνθετο.
Abstract
The subject of the present diploma thesis is the enhancement of speech intelligibility under conditions where noise is much louder than speech. In conditions where SNR is really high (for example SNR=5dB) speech intelligibility does not get affected significantly, but noise is present and sometimes ear-fatiguing. Therefore, our interest falls to improving the quality of speech using various algorithms (for example spectral substraction, Wiener filtering etc.). Unfortunately, these algorithms are not able to perform at low SNR levels, where speech intelligibility gets seriously corrupted. Under such conditions, the enhancement of speech intelligibility is chosen as a priority. To improve speech intelligibility, it is shown that the increase of the sum of the weighted SNR (dB) values in each frequency band is determinant (Articulation Index), which can be done by discarding frequency regions of the signal at certain time segments (windows). By using a selection criterion, we can choose which windows will be kept and which wll be discarded to achieve intelligibility improvement. In other words, a binary mask is applied. When we have an a priori knowledge of the target signal and the masker in our disposal, the selection criterion is an SNR threshold and the binary mask that is calculated is called “ideal”. In real life situations, only the mixture of the signals is available, which makes the calculation of the ideal binary mask nearly impossible. Now, the problem becomes a binary classification task. In the present diploma thesis, focus is given on “feeding” Gaussian Mixture Models with AMS-delta features and constructing a classifier based on the Bayes rule, which is an algorithm that was firstly implemented by Yi Hu and Philipos C. Loizou. In the end, the algorithm is applied on Matlab and evaluated with the HIT-FA rating. The results show that the proposed algorithm can perform well in situations where noise is “known” by the trained model, especially when the speaker type is “known” as well. Similar behavior is observed when models which are trained with all 5 types of noise are tested under the same scenarios, but the performance is noticeably worse. In general, the algorithm performs better as the SNR gets higher. Lastly, reasons why the performance differs from Hu’s and Loizou’s implementation are given, positive-negative comments are extracted, possible solutions for improvement are suggested and ideas for future steps are presented. Before the algorithm implementation, strong emphasis is given to the theoretical background
(fundamentals of digital speech processing & psychoacoustics) that is needed to clearly understand the fairly complex proposed problem.