Ηχητική κατάτμηση σημάτων με μεθόδους μηχανικής μάθησης
Audio signal segmentation using machine learning methods
Keywords
Τεχνητή νοημοσύνη ; Βαθιά μάθηση ; Νευρωνικά δίκτυα ; MFCC ; Ηχητική κατάτμηση ; Speech emotion recognition ; Αναγνώριση συναισθήματος ; Ομιλία ; LSTMAbstract
Η παρούσα διπλωματική εργασία διερευνά την αναγνώριση συναισθημάτων από την ομιλία, χρησιμοποιώντας το σύνολο δεδομένων RAVDESS και σύγχρονες τεχνικές μηχανικής μάθησης. Η εργασία είναι δομημένη σε πέντε κεφάλαια, τα οποία καλύπτουν τη θεωρητική βάση και την πειραματική διαδικασία. Στο πρώτο κεφάλαιο, παρουσιάζονται οι βασικές αρχές της επιστήμης του ήχου και των ψηφιακών δεδομένων ήχου. Εξετάζουμε τις φυσικές ιδιότητες του ήχου, την ψηφιοποίηση και τις μορφές αποθήκευσης των ηχητικών δεδομένων, προκειμένου να κατανοήσουμε πώς τα ηχητικά σήματα μετατρέπονται σε δεδομένα που μπορούν να επεξεργαστούν οι υπολογιστές. Το δεύτερο κεφάλαιο επικεντρώνεται στην εξαγωγή χαρακτηριστικών από τα ηχητικά δεδομένα. Περιγράφονται διάφορες τεχνικές και μεθοδολογίες για την ανάλυση των ηχητικών σημάτων, όπως η Ανάλυση Συχνοτήτων και τα Μελ-Φίλτρα Συχνοτήτων, που χρησιμοποιούνται για την εξαγωγή σημαντικών πληροφοριών από τα ηχητικά σήματα. Στο τρίτο κεφάλαιο, εξετάζουμε διάφορους αλγορίθμους και μεθόδους μηχανικής μάθησης. Αναλύουμε τους κύριους αλγορίθμους επιβλεπόμενης και μη επιβλεπόμενης μάθησης, όπως τα Νευρωνικά Δίκτυα και οι Υποστηριζόμενες Διανυσματικές Μηχανές, εξηγώντας τις βασικές αρχές λειτουργίας τους και τα πλεονεκτήματα που προσφέρουν. Το τέταρτο κεφάλαιο ασχολείται με την αναγνώριση συναισθημάτων από την ομιλία. Παρουσιάζουμε τις διάφορες προσεγγίσεις και τεχνικές που χρησιμοποιούνται στον τομέα αυτό, τις προκλήσεις που αντιμετωπίζονται και την σημασία της αναγνώρισης συναισθημάτων για τις εφαρμογές τεχνητής νοημοσύνης και τις ανθρώπινες-υπολογιστικές αλληλεπιδράσεις. Στο πέμπτο κεφάλαιο, προχωράμε στην πειραματική διαδικασία, όπου εφαρμόζουμε και συγκρίνουμε δύο διαφορετικούς ταξινομητές, τους LSTM (Long Short-Term Memory) και MLP (Multi-Layer Perceptron). Χρησιμοποιώντας το σύνολο δεδομένων RAVDESS, εκπαιδεύουμε και αξιολογούμε τα μοντέλα μας για την ταξινόμηση συναισθημάτων, διερευνώντας τις δυνατότητες και τις προκλήσεις που προκύπτουν από κάθε προσέγγιση.
Abstract
This thesis explores speech emotion recognition using the RAVDESS dataset and modern machine learning techniques. The thesis is structured into five chapters, covering the theoretical foundations and the experimental process. The first chapter presents the fundamental principles of the science of sound and digital audio data. We examine the physical properties of sound, digitization, and storage formats of audio data, to understand how audio signals are transformed into data that computers can process. The second chapter focuses on the extraction of features from audio data. Various techniques and methodologies for audio signal analysis are described, such as Frequency Analysis and Mel-Frequency Cepstral Coefficients, which are used to extract significant information from audio signals. In the third chapter, we examine various machine learning algorithms and methods. We analyze the main supervised and unsupervised learning algorithms, such as Neural Networks and Support Vector Machines, explaining their fundamental operational principles and the advantages they offer. The fourth chapter deals with speech emotion recognition. We present the different approaches and techniques used in this field, the challenges encountered, and the importance of emotion recognition for artificial intelligence applications and human-computer interactions. In the fifth chapter, we proceed with the experimental process, where we apply and compare two different classifiers, LSTM (Long Short-Term Memory) and MLP (Multi-Layer Perceptron). Using the RAVDESS dataset, we train and evaluate our models for emotion classification, exploring the capabilities and challenges that arise from each approach.