Εμφάνιση απλής εγγραφής

Βελτίωση της ομιλίας με χρήση ενός μικροφώνου

dc.contributor.advisorPotirakis, Stelios
dc.contributor.authorΓεωργάκης, Σπυρίδων
dc.date.accessioned2024-07-24T08:34:58Z
dc.date.available2024-07-24T08:34:58Z
dc.date.issued2024-07-19
dc.identifier.urihttps://polynoe.lib.uniwa.gr/xmlui/handle/11400/7168
dc.identifier.urihttp://dx.doi.org/10.26265/polynoe-7000
dc.description.abstractΑντικείμενο της παρούσας διπλωματικής εργασίας είναι η προσπάθεια της βελτίωσης της καταληπτότητας της ενθόρυβης ομιλίας με χρήση ενός καναλιού, σε συνθήκες όπου επικρατεί θόρυβος πολύ υψηλότερης στάθμης από αυτή της ομιλίας. Σε συνθήκες όπου επικρατούν υψηλές τιμές SNR (π.χ. 𝑆𝑁𝑅 = 5𝑑𝐵) η καταληπτότητα της ομιλίας δεν επηρεάζεται σημαντικά, όμως ο θόρυβος είναι αισθητός και πολλές φορές ενοχλητικός στο ανθρώπινο αφτί. Τότε, ενδιαφέρον παρουσιάζει η βελτίωση της ποιότητας της ομιλίας με χρήση διαφόρων αλγορίθμων (π.χ. spectral subtraction, Wiener filtering κλπ.). Δυστυχώς, αυτοί οι αλγόριθμοι αδυνατούν να δουλέψουν ικανοποιητικά σε χαμηλά SNR, όπου η καταληπτότητα της ομιλίας πλήττεται σημαντικά. Σε τέτοιες συνθήκες, η βελτίωση της καταληπτότητας αποτελεί προτεραιότητα. Για την βελτίωση της καταληπτότητας, έχει φανεί ότι είναι καθοριστική η αύξηση του αθροίσματος των σταθμισμένων SNR (dB) κάθε συχνοτικής ζώνης (Articulation Index), το οποίο μπορεί να επιτευχθεί με την εξάλειψη ορισμένων συχνοτικών περιοχών στα κατάλληλα χρονικά διαστήματα του ενθόρυβου σήματος (παράθυρα). Χρησιμοποιόντας ένα κριτήριο επιλογής, επιλέγονται ποιες περιοχές διατηρούνται και ποιες εξαλείφονται ώστε να βελτιωθεί η καταληπτότητα, δηλαδή εφαρμόζεται μία δυαδική μάσκα. Όταν είναι γνωστά τα σήματα ομιλίας και θορύβου ανεξάρτητα, το κριτήριο επιλογής είναι ένα κατώφλι στο SNR και τότε η δυαδική μάσκα λέγεται ιδανική. Στην πράξη, μόνο το σήμα ενθόρυβης ομιλίας είναι διαθέσιμο, πράγμα που κάνει την εξαγωγή της ιδανικής δυαδικής μάσκας πάρα πολύ δύσκολη και προς το παρόν ακατόρθωτη. Το πρόβλημα πλέον παίρνει τη μορφή δυαδικής ταξινόμησης. Στην παρούσα διπλωματική εργασία, γίνεται εστίαση στην τροφοδότηση μοντέλων μίξης γκαουσιανών με τα λεγόμενα AMS-delta features, και στην ταξινόμηση με τον κανόνα του Bayes, όπου εφαρμόστηκε από τους Yi Hu και Philipos C. Loizou. Ο αλγόριθμος εφαρμόζεται με τη βοήθεια του Matlab για άνδρα και γυναίκα ομιλητή σε 5 σενάρια θορύβου και αξιολογείται με τη χρήση του στατιστικού δείκτη HIT-FA. Τα αποτελέσματα δείχνουν ότι μπορεί να ανταπεξέλθει ικανοποιητικά σε περιβάλλονται όπου ο θόρυβος είναι «γνωστός» στο εκπαιδευμένο μοντέλο, ενώ εμφανίζει αισθητά καλύτερη απόδοση στο σενάριο όπου είναι επίσης «γνωστό» το είδος του ομιλητή. Παρόμοια συμπεριφορά ακολουθούν τα μοντέλα τα οποία εκπαιδεύονται με σκοπό να ανταπεξέλθουν και στα 5 σενάρια θορύβου ταυτόχρονα, αλλά η απόδοση είναι αισθητά χειρότερη. Γενικά, όσο μεγαλύτερο είναι το SNR που επικρατεί, τόσο καλύτερα αποδίδει ο αλγόριθμος. Τέλος, παρουσιάζονται οι λόγοι για τους οποίους τα αποτελέσματα διαφέρουν με αυτά της προσέγγισης των Yi Hu και Philipos C. Loizou, εξάγονται θετικά-αρνητικά σχόλια και δίνονται κάποιες πιθανές λύσεις για τη βελτίωση του αλγορίθμου αλλά και ιδέες για μελλοντικά βήματα. . Πριν την περιγραφή του αλγορίθμου, δίνεται μεγάλη έμφαση στο θεωρητικό υπόβαθρο (βασικές έννοιες ψηφιακής επεξεργασίας σημάτων ομιλίας & ψυχοακουστικής) που θεωρείται απαραίτητο για την πλήρη κατανόηση του προβλήματος, καθώς είναι αρκετά σύνθετο.el
dc.format.extent180el
dc.language.isoelel
dc.publisherΠανεπιστήμιο Δυτικής Αττικήςel
dc.rightsΑναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές*
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Διεθνές*
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Διεθνές*
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Διεθνές*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/*
dc.subjectΟμιλίαel
dc.subjectΘόρυβοςel
dc.subjectΚαταληπτότητα λόγουel
dc.subjectΑνάλυση βραχέος χρόνουel
dc.subjectΤράπεζα ζωνοπερατών φίλτρωνel
dc.subjectΖωνοπερατό φίλτροel
dc.subjectΠεριβάλλουσαel
dc.subjectΔυαδική μάσκαel
dc.subjectΛόγος σήματος-θόρυβοςel
dc.subjectΜοντέλα μίξης γκαουσιανώνel
dc.titleΒελτίωση της ομιλίας με χρήση ενός μικροφώνουel
dc.title.alternativeSingle microphone speech enhancementel
dc.typeΔιπλωματική εργασίαel
dc.contributor.committeeTatlas, Nicolas Alexander
dc.contributor.committeeKarabetsos, Sotiris
dc.contributor.facultyΣχολή Μηχανικώνel
dc.contributor.departmentΤμήμα Ηλεκτρολόγων και Ηλεκτρονικών Μηχανικώνel
dc.description.abstracttranslatedThe subject of the present diploma thesis is the enhancement of speech intelligibility under conditions where noise is much louder than speech. In conditions where SNR is really high (for example SNR=5dB) speech intelligibility does not get affected significantly, but noise is present and sometimes ear-fatiguing. Therefore, our interest falls to improving the quality of speech using various algorithms (for example spectral substraction, Wiener filtering etc.). Unfortunately, these algorithms are not able to perform at low SNR levels, where speech intelligibility gets seriously corrupted. Under such conditions, the enhancement of speech intelligibility is chosen as a priority. To improve speech intelligibility, it is shown that the increase of the sum of the weighted SNR (dB) values in each frequency band is determinant (Articulation Index), which can be done by discarding frequency regions of the signal at certain time segments (windows). By using a selection criterion, we can choose which windows will be kept and which wll be discarded to achieve intelligibility improvement. In other words, a binary mask is applied. When we have an a priori knowledge of the target signal and the masker in our disposal, the selection criterion is an SNR threshold and the binary mask that is calculated is called “ideal”. In real life situations, only the mixture of the signals is available, which makes the calculation of the ideal binary mask nearly impossible. Now, the problem becomes a binary classification task. In the present diploma thesis, focus is given on “feeding” Gaussian Mixture Models with AMS-delta features and constructing a classifier based on the Bayes rule, which is an algorithm that was firstly implemented by Yi Hu and Philipos C. Loizou. In the end, the algorithm is applied on Matlab and evaluated with the HIT-FA rating. The results show that the proposed algorithm can perform well in situations where noise is “known” by the trained model, especially when the speaker type is “known” as well. Similar behavior is observed when models which are trained with all 5 types of noise are tested under the same scenarios, but the performance is noticeably worse. In general, the algorithm performs better as the SNR gets higher. Lastly, reasons why the performance differs from Hu’s and Loizou’s implementation are given, positive-negative comments are extracted, possible solutions for improvement are suggested and ideas for future steps are presented. Before the algorithm implementation, strong emphasis is given to the theoretical background (fundamentals of digital speech processing & psychoacoustics) that is needed to clearly understand the fairly complex proposed problem.el


Αρχεία σε αυτό το τεκμήριο

Thumbnail

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές
Εκτός από όπου επισημαίνεται κάτι διαφορετικό, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές