Βελτίωση της ομιλίας με χρήση ενός μικροφώνου

Γεωργάκης, Σπυρίδων

dc.contributor.advisor	Potirakis, Stelios
dc.contributor.author	Γεωργάκης, Σπυρίδων
dc.date.accessioned	2024-07-24T08:34:58Z
dc.date.available	2024-07-24T08:34:58Z
dc.date.issued	2024-07-19
dc.identifier.uri	https://polynoe.lib.uniwa.gr/xmlui/handle/11400/7168
dc.identifier.uri	http://dx.doi.org/10.26265/polynoe-7000
dc.description.abstract	Αντικείμενο της παρούσας διπλωματικής εργασίας είναι η προσπάθεια της βελτίωσης της καταληπτότητας της ενθόρυβης ομιλίας με χρήση ενός καναλιού, σε συνθήκες όπου επικρατεί θόρυβος πολύ υψηλότερης στάθμης από αυτή της ομιλίας. Σε συνθήκες όπου επικρατούν υψηλές τιμές SNR (π.χ. 𝑆𝑁𝑅 = 5𝑑𝐵) η καταληπτότητα της ομιλίας δεν επηρεάζεται σημαντικά, όμως ο θόρυβος είναι αισθητός και πολλές φορές ενοχλητικός στο ανθρώπινο αφτί. Τότε, ενδιαφέρον παρουσιάζει η βελτίωση της ποιότητας της ομιλίας με χρήση διαφόρων αλγορίθμων (π.χ. spectral subtraction, Wiener filtering κλπ.). Δυστυχώς, αυτοί οι αλγόριθμοι αδυνατούν να δουλέψουν ικανοποιητικά σε χαμηλά SNR, όπου η καταληπτότητα της ομιλίας πλήττεται σημαντικά. Σε τέτοιες συνθήκες, η βελτίωση της καταληπτότητας αποτελεί προτεραιότητα. Για την βελτίωση της καταληπτότητας, έχει φανεί ότι είναι καθοριστική η αύξηση του αθροίσματος των σταθμισμένων SNR (dB) κάθε συχνοτικής ζώνης (Articulation Index), το οποίο μπορεί να επιτευχθεί με την εξάλειψη ορισμένων συχνοτικών περιοχών στα κατάλληλα χρονικά διαστήματα του ενθόρυβου σήματος (παράθυρα). Χρησιμοποιόντας ένα κριτήριο επιλογής, επιλέγονται ποιες περιοχές διατηρούνται και ποιες εξαλείφονται ώστε να βελτιωθεί η καταληπτότητα, δηλαδή εφαρμόζεται μία δυαδική μάσκα. Όταν είναι γνωστά τα σήματα ομιλίας και θορύβου ανεξάρτητα, το κριτήριο επιλογής είναι ένα κατώφλι στο SNR και τότε η δυαδική μάσκα λέγεται ιδανική. Στην πράξη, μόνο το σήμα ενθόρυβης ομιλίας είναι διαθέσιμο, πράγμα που κάνει την εξαγωγή της ιδανικής δυαδικής μάσκας πάρα πολύ δύσκολη και προς το παρόν ακατόρθωτη. Το πρόβλημα πλέον παίρνει τη μορφή δυαδικής ταξινόμησης. Στην παρούσα διπλωματική εργασία, γίνεται εστίαση στην τροφοδότηση μοντέλων μίξης γκαουσιανών με τα λεγόμενα AMS-delta features, και στην ταξινόμηση με τον κανόνα του Bayes, όπου εφαρμόστηκε από τους Yi Hu και Philipos C. Loizou. Ο αλγόριθμος εφαρμόζεται με τη βοήθεια του Matlab για άνδρα και γυναίκα ομιλητή σε 5 σενάρια θορύβου και αξιολογείται με τη χρήση του στατιστικού δείκτη HIT-FA. Τα αποτελέσματα δείχνουν ότι μπορεί να ανταπεξέλθει ικανοποιητικά σε περιβάλλονται όπου ο θόρυβος είναι «γνωστός» στο εκπαιδευμένο μοντέλο, ενώ εμφανίζει αισθητά καλύτερη απόδοση στο σενάριο όπου είναι επίσης «γνωστό» το είδος του ομιλητή. Παρόμοια συμπεριφορά ακολουθούν τα μοντέλα τα οποία εκπαιδεύονται με σκοπό να ανταπεξέλθουν και στα 5 σενάρια θορύβου ταυτόχρονα, αλλά η απόδοση είναι αισθητά χειρότερη. Γενικά, όσο μεγαλύτερο είναι το SNR που επικρατεί, τόσο καλύτερα αποδίδει ο αλγόριθμος. Τέλος, παρουσιάζονται οι λόγοι για τους οποίους τα αποτελέσματα διαφέρουν με αυτά της προσέγγισης των Yi Hu και Philipos C. Loizou, εξάγονται θετικά-αρνητικά σχόλια και δίνονται κάποιες πιθανές λύσεις για τη βελτίωση του αλγορίθμου αλλά και ιδέες για μελλοντικά βήματα. . Πριν την περιγραφή του αλγορίθμου, δίνεται μεγάλη έμφαση στο θεωρητικό υπόβαθρο (βασικές έννοιες ψηφιακής επεξεργασίας σημάτων ομιλίας & ψυχοακουστικής) που θεωρείται απαραίτητο για την πλήρη κατανόηση του προβλήματος, καθώς είναι αρκετά σύνθετο.	el
dc.format.extent	180	el
dc.language.iso	el	el
dc.publisher	Πανεπιστήμιο Δυτικής Αττικής	el
dc.rights	Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές	*
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές	*
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές	*
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/	*
dc.subject	Ομιλία	el
dc.subject	Θόρυβος	el
dc.subject	Καταληπτότητα λόγου	el
dc.subject	Ανάλυση βραχέος χρόνου	el
dc.subject	Τράπεζα ζωνοπερατών φίλτρων	el
dc.subject	Ζωνοπερατό φίλτρο	el
dc.subject	Περιβάλλουσα	el
dc.subject	Δυαδική μάσκα	el
dc.subject	Λόγος σήματος-θόρυβος	el
dc.subject	Μοντέλα μίξης γκαουσιανών	el
dc.title	Βελτίωση της ομιλίας με χρήση ενός μικροφώνου	el
dc.title.alternative	Single microphone speech enhancement	el
dc.type	Διπλωματική εργασία	el
dc.contributor.committee	Tatlas, Nicolas Alexander
dc.contributor.committee	Karabetsos, Sotiris
dc.contributor.faculty	Σχολή Μηχανικών	el
dc.contributor.department	Τμήμα Ηλεκτρολόγων και Ηλεκτρονικών Μηχανικών	el
dc.description.abstracttranslated	The subject of the present diploma thesis is the enhancement of speech intelligibility under conditions where noise is much louder than speech. In conditions where SNR is really high (for example SNR=5dB) speech intelligibility does not get affected significantly, but noise is present and sometimes ear-fatiguing. Therefore, our interest falls to improving the quality of speech using various algorithms (for example spectral substraction, Wiener filtering etc.). Unfortunately, these algorithms are not able to perform at low SNR levels, where speech intelligibility gets seriously corrupted. Under such conditions, the enhancement of speech intelligibility is chosen as a priority. To improve speech intelligibility, it is shown that the increase of the sum of the weighted SNR (dB) values in each frequency band is determinant (Articulation Index), which can be done by discarding frequency regions of the signal at certain time segments (windows). By using a selection criterion, we can choose which windows will be kept and which wll be discarded to achieve intelligibility improvement. In other words, a binary mask is applied. When we have an a priori knowledge of the target signal and the masker in our disposal, the selection criterion is an SNR threshold and the binary mask that is calculated is called “ideal”. In real life situations, only the mixture of the signals is available, which makes the calculation of the ideal binary mask nearly impossible. Now, the problem becomes a binary classification task. In the present diploma thesis, focus is given on “feeding” Gaussian Mixture Models with AMS-delta features and constructing a classifier based on the Bayes rule, which is an algorithm that was firstly implemented by Yi Hu and Philipos C. Loizou. In the end, the algorithm is applied on Matlab and evaluated with the HIT-FA rating. The results show that the proposed algorithm can perform well in situations where noise is “known” by the trained model, especially when the speaker type is “known” as well. Similar behavior is observed when models which are trained with all 5 types of noise are tested under the same scenarios, but the performance is noticeably worse. In general, the algorithm performs better as the SNR gets higher. Lastly, reasons why the performance differs from Hu’s and Loizou’s implementation are given, positive-negative comments are extracted, possible solutions for improvement are suggested and ideas for future steps are presented. Before the algorithm implementation, strong emphasis is given to the theoretical background (fundamentals of digital speech processing & psychoacoustics) that is needed to clearly understand the fairly complex proposed problem.	el

Αρχεία σε αυτό το τεκμήριο

Όνομα:: Georgakis_18387108.pdf
Μέγεθος:: 4.654Mb
Τύπος:: PDF
Περιγραφή:: Διπλωματική Εργασία

Προβολή/Άνοιγμα

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Διπλωματικές εργασίες
Διπλωματικές εργασίες τμήματος Ηλεκτρολόγων και Ηλεκτρονικών Μηχανικών

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές

Εκτός από όπου επισημαίνεται κάτι διαφορετικό, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές