A speech-based approach for depression detection
Η προσέγγιση της ανάλυσης ομιλίας για την ανίχνευση της κατάθλιψης
Μεταπτυχιακή διπλωματική εργασία
Συγγραφέας
Μπαρδάκη, Αικατερίνη
Ημερομηνία
2024-10Επιβλέπων
Coelho, Luis PintoΛέξεις-κλειδιά
Depression ; Voice detection ; Machine learning ; Κατάθλιψη ; Φωνητική ανίχνευση ; Μηχανική μάθησηΠερίληψη
Depression is a widespread mental health disorder with severe impacts on quality of life.
Current screening relies mainly on psychiatrist evaluations, lacking technological support.
Advances in AI now enable rapid pattern recognition, allowing researchers to leverage speech
analysis for depression detection. As a result, the present thesis aims to a) compare different
machine learning models in terms of their classification accuracy in separating depressed and
non-depressed people on voice data obtained from the DAIC-WOZ dataset, b) detect
significantly important features that contribute to speech patterns related to depression, and
c) fine-tune the optimal machine learning model found in stage a) ensuring accurate and
robust results for real-world data.
The used dataset is part of the Distress Analysis Interview Corpus (DAIC) from the University
of Southern California, which aids in diagnosing depression. It consists of 189 English
interview sessions with pre-extracted voice features, processed with the Cooperative Voice
Analysis Repository (COVAREP) toolbox. In the present thesis, these features were processed
via Python programming with the Anaconda Distribution package.
The dataset was originally divided into training, validation, and testing sets, but a new split of
80% training and 20% testing was chosen. The 74 pre-extracted COVAREP features represent
time-series data, which created a large matrix that posed computational challenges. Two
approaches were employed to address these: (1) selecting core features (7000 middle rows
of each session) and (2) aggregating time series data into four statistical features per feature,
reducing it to one row per participant. Both approaches included preprocessing steps to
handle missing or infinite values and standardization. In the first approach, two dataset
versions were tested: one non-balanced and one balanced through row deletion (392000
rows for each class). Models evaluated included Neural Networks, Convolutional Neural
Networks, Long Short-Term Memory, AdaBoost, Multilayer Perceptron, and Decision Tree. In
the second approach, the data balanced with the SMOTE technique was used to evaluate the
Support Vector Machine (SVM) algorithm on the aggregated features.
The SVM demonstrated the best performance across scenarios, achieving 81% accuracy, 79%
precision, 90% recall, 74% F1-score, and 72% specificity. Interpretability tools (LIME, SHAP,
PDP) identified three key features contributing to the model’s predictions.
Περίληψη
Η κατάθλιψη είναι μια ευρέως διαδεδομένη διαταραχή της ψυχικής υγείας με σοβαρές
επιπτώσεις στην ποιότητα ζωής. Ο σημερινός έλεγχος βασίζεται κυρίως σε αξιολογήσεις
ψυχιάτρων, χωρίς κάποια τεχνολογική υποστήριξη. Οι εξελίξεις στην τεχνητή νοημοσύνη
επιτρέπουν πλέον την ταχεία αναγνώριση μοτίβων, επιτρέποντας στους ερευνητές να
αξιοποιήσουν την ανάλυση ομιλίας για την ανίχνευση της κατάθλιψης. Ως εκ τούτου, η
παρούσα διπλωματική εργασία αποσκοπεί α) στη σύγκριση διαφορετικών μοντέλων
μηχανικής μάθησης όσον αφορά την ακρίβεια ταξινόμησής τους στο διαχωρισμό
καταθλιπτικών και μη καταθλιπτικών ατόμων σε δεδομένα φωνής που ελήφθησαν από τη
βάση δεδομένων DAIC-WOZ, β) στον εντοπισμό στατιστικά σημαντικών χαρακτηριστικών
που συμβάλλουν σε μοτίβα ομιλίας που σχετίζονται με την κατάθλιψη και γ) στην
προσαρμογή του βέλτιστου μοντέλου μηχανικής μάθησης που βρέθηκε στο στάδιο α),
εξασφαλίζοντας ακριβή και αξιόπιστα αποτελέσματα για δεδομένα πραγματικού κόσμου.
Το σύνολο δεδομένων που χρησιμοποιήθηκε είναι μέρος της βάσης δεδομένων Distress
Analysis Interview Corpus (DAIC) του Πανεπιστημίου της Νότιας Καλιφόρνιας, το οποίο
βοηθά στη διάγνωση της κατάθλιψης. Αποτελείται από 189 συνεδρίες στην αγγλική γλώσσα
με έτοιμα εξαχθέντα χαρακτηριστικά φωνής μέσω του Cooperative Voice Analysis Repository
(COVAREP). Στην παρούσα εργασία η επεξεργασία τους έγινε μέσω προγραμματισμού
Python με το Anaconda Distribution.
Τα δεδομένα ήταν ήδη χωρισμένα σε σύνολα εκπαίδευσης (training), επικύρωσης
(validation) και δοκιμής (testing), αλλά επιλέχθηκε ένας νέος διαχωρισμός 80% εκπαίδευση
και 20% δοκιμή. Τα 74 ήδη εξαχθέντα χαρακτηριστικά COVAREP αποτελούν δεδομένα
χρονοσειρών, τα οποία δημιούργησαν έναν μεγάλο πίνακα που παρουσίασε υπολογιστικούς
περιορισμούς. Για την αντιμετώπισή τους, χρησιμοποιήθηκαν δύο προσεγγίσεις: (1) η
επιλογή των βασικών χαρακτηριστικών (7000 ενδιάμεσες γραμμές από κάθε συνεδρία) και
(2) η συγκέντρωση των δεδομένων χρονοσειρών σε τέσσερα στατιστικά χαρακτηριστικά ανά
χαρακτηριστικό, μειώνοντάς τα αποτελέσματα του πίνακα σε μία γραμμή ανά
συμμετέχοντα. Και οι δύο προσεγγίσεις περιλάμβαναν βήματα προ-επεξεργασίας για την
διαχείριση των μηδενικών ή άπειρων τιμών και την κανονικοποίηση. Στην πρώτη
προσέγγιση, δοκιμάστηκαν δύο εκδοχές: μία με μη-ισορροπημένα δεδομένα και μία με
ισορροπημένα μέσω της διαγραφής γραμμών για την εξισορρόπηση τους (392000 γραμμές
κάθε κλάση). Τα μοντέλα που αξιολογήθηκαν περιλαμβάνουν τα Νευρωνικά Δίκτυα,
Συνελικτικά Νευρωνικά Δίκτυα, Long Short-Term Memory, AdaBoost, Multilayer Perceptron,
και τα Δέντρα Αποφάσεων. Στη δεύτερη προσέγγιση, τα δεδομένα που εξισορροπήθηκαν με
την τεχνική SMOTE χρησιμοποιήθηκαν για την δοκιμή και την αξιολόγηση του αλγορίθμου
Support Vector Machine (SVM).
Το SVM επέφερε την καλύτερη απόδοση από όλα τα σενάρια, επιτυγχάνοντας 81% ακρίβεια
(accuracy), 79% ευστοχία (precision), 90% recall (ευαισθησία), 74% F1-score και 72%
εξειδίκευση (specificity). Μέσω εργαλείων που υποστηρίζουν την ερμηνεία των
αποτελεσμάτων (LIME, SHAP, PDP) εντοπίστηκαν τρία στατιστικώς σημαντικά
χαρακτηριστικά.