A speech-based approach for depression detection

Μπαρδάκη, Αικατερίνη

dc.contributor.advisor	Coelho, Luis Pinto
dc.contributor.author	Μπαρδάκη, Αικατερίνη
dc.date.accessioned	2024-10-28T17:39:14Z
dc.date.available	2024-10-28T17:39:14Z
dc.date.issued	2024-10
dc.identifier.uri	https://polynoe.lib.uniwa.gr/xmlui/handle/11400/7898
dc.identifier.uri	http://dx.doi.org/10.26265/polynoe-7730
dc.description.abstract	Depression is a widespread mental health disorder with severe impacts on quality of life. Current screening relies mainly on psychiatrist evaluations, lacking technological support. Advances in AI now enable rapid pattern recognition, allowing researchers to leverage speech analysis for depression detection. As a result, the present thesis aims to a) compare different machine learning models in terms of their classification accuracy in separating depressed and non-depressed people on voice data obtained from the DAIC-WOZ dataset, b) detect significantly important features that contribute to speech patterns related to depression, and c) fine-tune the optimal machine learning model found in stage a) ensuring accurate and robust results for real-world data. The used dataset is part of the Distress Analysis Interview Corpus (DAIC) from the University of Southern California, which aids in diagnosing depression. It consists of 189 English interview sessions with pre-extracted voice features, processed with the Cooperative Voice Analysis Repository (COVAREP) toolbox. In the present thesis, these features were processed via Python programming with the Anaconda Distribution package. The dataset was originally divided into training, validation, and testing sets, but a new split of 80% training and 20% testing was chosen. The 74 pre-extracted COVAREP features represent time-series data, which created a large matrix that posed computational challenges. Two approaches were employed to address these: (1) selecting core features (7000 middle rows of each session) and (2) aggregating time series data into four statistical features per feature, reducing it to one row per participant. Both approaches included preprocessing steps to handle missing or infinite values and standardization. In the first approach, two dataset versions were tested: one non-balanced and one balanced through row deletion (392000 rows for each class). Models evaluated included Neural Networks, Convolutional Neural Networks, Long Short-Term Memory, AdaBoost, Multilayer Perceptron, and Decision Tree. In the second approach, the data balanced with the SMOTE technique was used to evaluate the Support Vector Machine (SVM) algorithm on the aggregated features. The SVM demonstrated the best performance across scenarios, achieving 81% accuracy, 79% precision, 90% recall, 74% F1-score, and 72% specificity. Interpretability tools (LIME, SHAP, PDP) identified three key features contributing to the model’s predictions.	el
dc.format.extent	72	el
dc.language.iso	en	el
dc.publisher	Πανεπιστήμιο Δυτικής Αττικής	el
dc.rights	Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές	*
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/	*
dc.subject	Depression	el
dc.subject	Voice detection	el
dc.subject	Machine learning	el
dc.subject	Κατάθλιψη	el
dc.subject	Φωνητική ανίχνευση	el
dc.subject	Μηχανική μάθηση	el
dc.title	A speech-based approach for depression detection	el
dc.title.alternative	Η προσέγγιση της ανάλυσης ομιλίας για την ανίχνευση της κατάθλιψης	el
dc.type	Μεταπτυχιακή διπλωματική εργασία	el
dc.contributor.committee	Kostopoulos, Spiros
dc.contributor.committee	Glotsos, Dimitris
dc.contributor.faculty	Σχολή Μηχανικών	el
dc.contributor.department	Τμήμα Μηχανικών Βιοϊατρικής	el
dc.contributor.master	Biomedical Engineering & Technology	el
dc.description.abstracttranslated	Η κατάθλιψη είναι μια ευρέως διαδεδομένη διαταραχή της ψυχικής υγείας με σοβαρές επιπτώσεις στην ποιότητα ζωής. Ο σημερινός έλεγχος βασίζεται κυρίως σε αξιολογήσεις ψυχιάτρων, χωρίς κάποια τεχνολογική υποστήριξη. Οι εξελίξεις στην τεχνητή νοημοσύνη επιτρέπουν πλέον την ταχεία αναγνώριση μοτίβων, επιτρέποντας στους ερευνητές να αξιοποιήσουν την ανάλυση ομιλίας για την ανίχνευση της κατάθλιψης. Ως εκ τούτου, η παρούσα διπλωματική εργασία αποσκοπεί α) στη σύγκριση διαφορετικών μοντέλων μηχανικής μάθησης όσον αφορά την ακρίβεια ταξινόμησής τους στο διαχωρισμό καταθλιπτικών και μη καταθλιπτικών ατόμων σε δεδομένα φωνής που ελήφθησαν από τη βάση δεδομένων DAIC-WOZ, β) στον εντοπισμό στατιστικά σημαντικών χαρακτηριστικών που συμβάλλουν σε μοτίβα ομιλίας που σχετίζονται με την κατάθλιψη και γ) στην προσαρμογή του βέλτιστου μοντέλου μηχανικής μάθησης που βρέθηκε στο στάδιο α), εξασφαλίζοντας ακριβή και αξιόπιστα αποτελέσματα για δεδομένα πραγματικού κόσμου. Το σύνολο δεδομένων που χρησιμοποιήθηκε είναι μέρος της βάσης δεδομένων Distress Analysis Interview Corpus (DAIC) του Πανεπιστημίου της Νότιας Καλιφόρνιας, το οποίο βοηθά στη διάγνωση της κατάθλιψης. Αποτελείται από 189 συνεδρίες στην αγγλική γλώσσα με έτοιμα εξαχθέντα χαρακτηριστικά φωνής μέσω του Cooperative Voice Analysis Repository (COVAREP). Στην παρούσα εργασία η επεξεργασία τους έγινε μέσω προγραμματισμού Python με το Anaconda Distribution. Τα δεδομένα ήταν ήδη χωρισμένα σε σύνολα εκπαίδευσης (training), επικύρωσης (validation) και δοκιμής (testing), αλλά επιλέχθηκε ένας νέος διαχωρισμός 80% εκπαίδευση και 20% δοκιμή. Τα 74 ήδη εξαχθέντα χαρακτηριστικά COVAREP αποτελούν δεδομένα χρονοσειρών, τα οποία δημιούργησαν έναν μεγάλο πίνακα που παρουσίασε υπολογιστικούς περιορισμούς. Για την αντιμετώπισή τους, χρησιμοποιήθηκαν δύο προσεγγίσεις: (1) η επιλογή των βασικών χαρακτηριστικών (7000 ενδιάμεσες γραμμές από κάθε συνεδρία) και (2) η συγκέντρωση των δεδομένων χρονοσειρών σε τέσσερα στατιστικά χαρακτηριστικά ανά χαρακτηριστικό, μειώνοντάς τα αποτελέσματα του πίνακα σε μία γραμμή ανά συμμετέχοντα. Και οι δύο προσεγγίσεις περιλάμβαναν βήματα προ-επεξεργασίας για την διαχείριση των μηδενικών ή άπειρων τιμών και την κανονικοποίηση. Στην πρώτη προσέγγιση, δοκιμάστηκαν δύο εκδοχές: μία με μη-ισορροπημένα δεδομένα και μία με ισορροπημένα μέσω της διαγραφής γραμμών για την εξισορρόπηση τους (392000 γραμμές κάθε κλάση). Τα μοντέλα που αξιολογήθηκαν περιλαμβάνουν τα Νευρωνικά Δίκτυα, Συνελικτικά Νευρωνικά Δίκτυα, Long Short-Term Memory, AdaBoost, Multilayer Perceptron, και τα Δέντρα Αποφάσεων. Στη δεύτερη προσέγγιση, τα δεδομένα που εξισορροπήθηκαν με την τεχνική SMOTE χρησιμοποιήθηκαν για την δοκιμή και την αξιολόγηση του αλγορίθμου Support Vector Machine (SVM). Το SVM επέφερε την καλύτερη απόδοση από όλα τα σενάρια, επιτυγχάνοντας 81% ακρίβεια (accuracy), 79% ευστοχία (precision), 90% recall (ευαισθησία), 74% F1-score και 72% εξειδίκευση (specificity). Μέσω εργαλείων που υποστηρίζουν την ερμηνεία των αποτελεσμάτων (LIME, SHAP, PDP) εντοπίστηκαν τρία στατιστικώς σημαντικά χαρακτηριστικά.	el

Files in this item

Name:: Bardaki_bmet07.pdf
Size:: 2.236Mb
Format:: PDF
Description:: Μεταπτυχιακή διπλωματική εργασία

View/Open

This item appears in the following Collection(s)

Μεταπτυχιακές διπλωματικές εργασίες - Biomedical Engineering & Technology
Μεταπτυχιακές διπλωματικές εργασίες ΠΜΣ Biomedical Engineering & Technology

Show simple item record

Except where otherwise noted, this item's license is described as
Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές