Show simple item record

A speech-based approach for depression detection

dc.contributor.advisorCoelho, Luis Pinto
dc.contributor.authorΜπαρδάκη, Αικατερίνη
dc.date.accessioned2024-10-28T17:39:14Z
dc.date.available2024-10-28T17:39:14Z
dc.date.issued2024-10
dc.identifier.urihttps://polynoe.lib.uniwa.gr/xmlui/handle/11400/7898
dc.identifier.urihttp://dx.doi.org/10.26265/polynoe-7730
dc.description.abstractDepression is a widespread mental health disorder with severe impacts on quality of life. Current screening relies mainly on psychiatrist evaluations, lacking technological support. Advances in AI now enable rapid pattern recognition, allowing researchers to leverage speech analysis for depression detection. As a result, the present thesis aims to a) compare different machine learning models in terms of their classification accuracy in separating depressed and non-depressed people on voice data obtained from the DAIC-WOZ dataset, b) detect significantly important features that contribute to speech patterns related to depression, and c) fine-tune the optimal machine learning model found in stage a) ensuring accurate and robust results for real-world data. The used dataset is part of the Distress Analysis Interview Corpus (DAIC) from the University of Southern California, which aids in diagnosing depression. It consists of 189 English interview sessions with pre-extracted voice features, processed with the Cooperative Voice Analysis Repository (COVAREP) toolbox. In the present thesis, these features were processed via Python programming with the Anaconda Distribution package. The dataset was originally divided into training, validation, and testing sets, but a new split of 80% training and 20% testing was chosen. The 74 pre-extracted COVAREP features represent time-series data, which created a large matrix that posed computational challenges. Two approaches were employed to address these: (1) selecting core features (7000 middle rows of each session) and (2) aggregating time series data into four statistical features per feature, reducing it to one row per participant. Both approaches included preprocessing steps to handle missing or infinite values and standardization. In the first approach, two dataset versions were tested: one non-balanced and one balanced through row deletion (392000 rows for each class). Models evaluated included Neural Networks, Convolutional Neural Networks, Long Short-Term Memory, AdaBoost, Multilayer Perceptron, and Decision Tree. In the second approach, the data balanced with the SMOTE technique was used to evaluate the Support Vector Machine (SVM) algorithm on the aggregated features. The SVM demonstrated the best performance across scenarios, achieving 81% accuracy, 79% precision, 90% recall, 74% F1-score, and 72% specificity. Interpretability tools (LIME, SHAP, PDP) identified three key features contributing to the model’s predictions.el
dc.format.extent72el
dc.language.isoenel
dc.publisherΠανεπιστήμιο Δυτικής Αττικήςel
dc.rightsΑναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές*
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Διεθνές*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/*
dc.subjectDepressionel
dc.subjectVoice detectionel
dc.subjectMachine learningel
dc.subjectΚατάθλιψηel
dc.subjectΦωνητική ανίχνευσηel
dc.subjectΜηχανική μάθησηel
dc.titleA speech-based approach for depression detectionel
dc.title.alternativeΗ προσέγγιση της ανάλυσης ομιλίας για την ανίχνευση της κατάθλιψηςel
dc.typeΜεταπτυχιακή διπλωματική εργασίαel
dc.contributor.committeeKostopoulos, Spiros
dc.contributor.committeeGlotsos, Dimitris
dc.contributor.facultyΣχολή Μηχανικώνel
dc.contributor.departmentΤμήμα Μηχανικών Βιοϊατρικήςel
dc.contributor.masterBiomedical Engineering & Technologyel
dc.description.abstracttranslatedΗ κατάθλιψη είναι μια ευρέως διαδεδομένη διαταραχή της ψυχικής υγείας με σοβαρές επιπτώσεις στην ποιότητα ζωής. Ο σημερινός έλεγχος βασίζεται κυρίως σε αξιολογήσεις ψυχιάτρων, χωρίς κάποια τεχνολογική υποστήριξη. Οι εξελίξεις στην τεχνητή νοημοσύνη επιτρέπουν πλέον την ταχεία αναγνώριση μοτίβων, επιτρέποντας στους ερευνητές να αξιοποιήσουν την ανάλυση ομιλίας για την ανίχνευση της κατάθλιψης. Ως εκ τούτου, η παρούσα διπλωματική εργασία αποσκοπεί α) στη σύγκριση διαφορετικών μοντέλων μηχανικής μάθησης όσον αφορά την ακρίβεια ταξινόμησής τους στο διαχωρισμό καταθλιπτικών και μη καταθλιπτικών ατόμων σε δεδομένα φωνής που ελήφθησαν από τη βάση δεδομένων DAIC-WOZ, β) στον εντοπισμό στατιστικά σημαντικών χαρακτηριστικών που συμβάλλουν σε μοτίβα ομιλίας που σχετίζονται με την κατάθλιψη και γ) στην προσαρμογή του βέλτιστου μοντέλου μηχανικής μάθησης που βρέθηκε στο στάδιο α), εξασφαλίζοντας ακριβή και αξιόπιστα αποτελέσματα για δεδομένα πραγματικού κόσμου. Το σύνολο δεδομένων που χρησιμοποιήθηκε είναι μέρος της βάσης δεδομένων Distress Analysis Interview Corpus (DAIC) του Πανεπιστημίου της Νότιας Καλιφόρνιας, το οποίο βοηθά στη διάγνωση της κατάθλιψης. Αποτελείται από 189 συνεδρίες στην αγγλική γλώσσα με έτοιμα εξαχθέντα χαρακτηριστικά φωνής μέσω του Cooperative Voice Analysis Repository (COVAREP). Στην παρούσα εργασία η επεξεργασία τους έγινε μέσω προγραμματισμού Python με το Anaconda Distribution. Τα δεδομένα ήταν ήδη χωρισμένα σε σύνολα εκπαίδευσης (training), επικύρωσης (validation) και δοκιμής (testing), αλλά επιλέχθηκε ένας νέος διαχωρισμός 80% εκπαίδευση και 20% δοκιμή. Τα 74 ήδη εξαχθέντα χαρακτηριστικά COVAREP αποτελούν δεδομένα χρονοσειρών, τα οποία δημιούργησαν έναν μεγάλο πίνακα που παρουσίασε υπολογιστικούς περιορισμούς. Για την αντιμετώπισή τους, χρησιμοποιήθηκαν δύο προσεγγίσεις: (1) η επιλογή των βασικών χαρακτηριστικών (7000 ενδιάμεσες γραμμές από κάθε συνεδρία) και (2) η συγκέντρωση των δεδομένων χρονοσειρών σε τέσσερα στατιστικά χαρακτηριστικά ανά χαρακτηριστικό, μειώνοντάς τα αποτελέσματα του πίνακα σε μία γραμμή ανά συμμετέχοντα. Και οι δύο προσεγγίσεις περιλάμβαναν βήματα προ-επεξεργασίας για την διαχείριση των μηδενικών ή άπειρων τιμών και την κανονικοποίηση. Στην πρώτη προσέγγιση, δοκιμάστηκαν δύο εκδοχές: μία με μη-ισορροπημένα δεδομένα και μία με ισορροπημένα μέσω της διαγραφής γραμμών για την εξισορρόπηση τους (392000 γραμμές κάθε κλάση). Τα μοντέλα που αξιολογήθηκαν περιλαμβάνουν τα Νευρωνικά Δίκτυα, Συνελικτικά Νευρωνικά Δίκτυα, Long Short-Term Memory, AdaBoost, Multilayer Perceptron, και τα Δέντρα Αποφάσεων. Στη δεύτερη προσέγγιση, τα δεδομένα που εξισορροπήθηκαν με την τεχνική SMOTE χρησιμοποιήθηκαν για την δοκιμή και την αξιολόγηση του αλγορίθμου Support Vector Machine (SVM). Το SVM επέφερε την καλύτερη απόδοση από όλα τα σενάρια, επιτυγχάνοντας 81% ακρίβεια (accuracy), 79% ευστοχία (precision), 90% recall (ευαισθησία), 74% F1-score και 72% εξειδίκευση (specificity). Μέσω εργαλείων που υποστηρίζουν την ερμηνεία των αποτελεσμάτων (LIME, SHAP, PDP) εντοπίστηκαν τρία στατιστικώς σημαντικά χαρακτηριστικά.el


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές
Except where otherwise noted, this item's license is described as
Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές