Εμφάνιση απλής εγγραφής

Ηχητική κατάτμηση σημάτων με μεθόδους μηχανικής μάθησης

dc.contributor.advisorΚάντζος, Δημήτριος
dc.contributor.authorΧαραλάμπους, Απόλλωνας
dc.date.accessioned2024-10-04T11:49:40Z
dc.date.available2024-10-04T11:49:40Z
dc.date.issued2024-07-19
dc.identifier.urihttps://polynoe.lib.uniwa.gr/xmlui/handle/11400/7562
dc.identifier.urihttp://dx.doi.org/10.26265/polynoe-7394
dc.description.abstractΗ παρούσα διπλωματική εργασία διερευνά την αναγνώριση συναισθημάτων από την ομιλία, χρησιμοποιώντας το σύνολο δεδομένων RAVDESS και σύγχρονες τεχνικές μηχανικής μάθησης. Η εργασία είναι δομημένη σε πέντε κεφάλαια, τα οποία καλύπτουν τη θεωρητική βάση και την πειραματική διαδικασία. Στο πρώτο κεφάλαιο, παρουσιάζονται οι βασικές αρχές της επιστήμης του ήχου και των ψηφιακών δεδομένων ήχου. Εξετάζουμε τις φυσικές ιδιότητες του ήχου, την ψηφιοποίηση και τις μορφές αποθήκευσης των ηχητικών δεδομένων, προκειμένου να κατανοήσουμε πώς τα ηχητικά σήματα μετατρέπονται σε δεδομένα που μπορούν να επεξεργαστούν οι υπολογιστές. Το δεύτερο κεφάλαιο επικεντρώνεται στην εξαγωγή χαρακτηριστικών από τα ηχητικά δεδομένα. Περιγράφονται διάφορες τεχνικές και μεθοδολογίες για την ανάλυση των ηχητικών σημάτων, όπως η Ανάλυση Συχνοτήτων και τα Μελ-Φίλτρα Συχνοτήτων, που χρησιμοποιούνται για την εξαγωγή σημαντικών πληροφοριών από τα ηχητικά σήματα. Στο τρίτο κεφάλαιο, εξετάζουμε διάφορους αλγορίθμους και μεθόδους μηχανικής μάθησης. Αναλύουμε τους κύριους αλγορίθμους επιβλεπόμενης και μη επιβλεπόμενης μάθησης, όπως τα Νευρωνικά Δίκτυα και οι Υποστηριζόμενες Διανυσματικές Μηχανές, εξηγώντας τις βασικές αρχές λειτουργίας τους και τα πλεονεκτήματα που προσφέρουν. Το τέταρτο κεφάλαιο ασχολείται με την αναγνώριση συναισθημάτων από την ομιλία. Παρουσιάζουμε τις διάφορες προσεγγίσεις και τεχνικές που χρησιμοποιούνται στον τομέα αυτό, τις προκλήσεις που αντιμετωπίζονται και την σημασία της αναγνώρισης συναισθημάτων για τις εφαρμογές τεχνητής νοημοσύνης και τις ανθρώπινες-υπολογιστικές αλληλεπιδράσεις. Στο πέμπτο κεφάλαιο, προχωράμε στην πειραματική διαδικασία, όπου εφαρμόζουμε και συγκρίνουμε δύο διαφορετικούς ταξινομητές, τους LSTM (Long Short-Term Memory) και MLP (Multi-Layer Perceptron). Χρησιμοποιώντας το σύνολο δεδομένων RAVDESS, εκπαιδεύουμε και αξιολογούμε τα μοντέλα μας για την ταξινόμηση συναισθημάτων, διερευνώντας τις δυνατότητες και τις προκλήσεις που προκύπτουν από κάθε προσέγγιση.el
dc.format.extent78el
dc.language.isoelel
dc.publisherΠανεπιστήμιο Δυτικής Αττικήςel
dc.rightsΑναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές*
dc.rightsΑναφορά Δημιουργού 4.0 Διεθνές*
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/*
dc.subjectΤεχνητή νοημοσύνηel
dc.subjectΒαθιά μάθησηel
dc.subjectΝευρωνικά δίκτυαel
dc.subjectMFCCel
dc.subjectΗχητική κατάτμησηel
dc.subjectSpeech emotion recognitionel
dc.subjectΑναγνώριση συναισθήματοςel
dc.subjectΟμιλίαel
dc.subjectLSTMel
dc.titleΗχητική κατάτμηση σημάτων με μεθόδους μηχανικής μάθησηςel
dc.title.alternativeAudio signal segmentation using machine learning methodsel
dc.typeΔιπλωματική εργασίαel
dc.contributor.committeeLeligou, Helen C. (Nelly)
dc.contributor.committeeNikolaou, Grigoris
dc.contributor.facultyΣχολή Μηχανικώνel
dc.contributor.departmentΤμήμα Μηχανικών Βιομηχανικής Σχεδίασης και Παραγωγήςel
dc.description.abstracttranslatedThis thesis explores speech emotion recognition using the RAVDESS dataset and modern machine learning techniques. The thesis is structured into five chapters, covering the theoretical foundations and the experimental process. The first chapter presents the fundamental principles of the science of sound and digital audio data. We examine the physical properties of sound, digitization, and storage formats of audio data, to understand how audio signals are transformed into data that computers can process. The second chapter focuses on the extraction of features from audio data. Various techniques and methodologies for audio signal analysis are described, such as Frequency Analysis and Mel-Frequency Cepstral Coefficients, which are used to extract significant information from audio signals. In the third chapter, we examine various machine learning algorithms and methods. We analyze the main supervised and unsupervised learning algorithms, such as Neural Networks and Support Vector Machines, explaining their fundamental operational principles and the advantages they offer. The fourth chapter deals with speech emotion recognition. We present the different approaches and techniques used in this field, the challenges encountered, and the importance of emotion recognition for artificial intelligence applications and human-computer interactions. In the fifth chapter, we proceed with the experimental process, where we apply and compare two different classifiers, LSTM (Long Short-Term Memory) and MLP (Multi-Layer Perceptron). Using the RAVDESS dataset, we train and evaluate our models for emotion classification, exploring the capabilities and challenges that arise from each approach.el


Αρχεία σε αυτό το τεκμήριο

Thumbnail

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές
Εκτός από όπου επισημαίνεται κάτι διαφορετικό, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές