Χρήση αλγορίθμων μηχανικής μάθησης για την ταξινόμηση καταθλιπτικών καταστάσεων
Use of machine learning algorithms for the classification of depressive states
Keywords
Κινητική δραστηριότητα ; Μονοπολική διαταραχή ; Διπολική διαταραχή ; MADRS κλίμακα ; Μηχανική μάθηση ; Ταξινόμηση ; MATLAB ; Motor activity ; Unipolar depression ; Bipolar depression ; MADRS scale ; Machine learning ; ClassificationAbstract
Σκοπός της παρούσας διπλωματικής εργασίας είναι η χρήση αλγορίθμων Μηχανικής Μάθησης για την Ταξινόμηση Καταθλιπτικών Καταστάσεων. Επικεντρώνεται στη χρήση των τεχνικών αυτών για την κατηγοριοποίηση δεδομένων που σχετίζονται με καταθλιπτικές διαταραχές. Η μελέτη αναλύει τον τρόπο με τον οποίο η κινητική δραστηριότητα των ατόμων συνδέεται με τις ψυχικές τους καταστάσεις και προτείνει αλγορίθμους για την ταξινόμηση αυτών των δεδομένων. Χρησιμοποιήθηκαν τα δεδομένα της βάσης “Depresjon” από το ελεύθερα διαθέσιμο αποθετήριο Simula. Συνολικά, υπάρχουν τρεις κατηγορίες στις οποίες κατατάσσονται οι ασθενείς. Στην πρώτη κατηγορία κατατάσσονται τα άτομα τα οποία έχουν διαγνωσθεί με μονοπολική διαταραχή. Στη δεύτερη κατηγορία ανήκουν οι ασθενείς με διπολική διαταραχή. Και στη τρίτη κατηγορία ταξινομούνται όλα τα υγιή άτομα. Για όλους τους ασθενείς δίνονται πληροφορίες σχετικά με την ημερήσια καταγραφή της κινητικής τους δραστηριότητας για κάποιες ημέρες.
Στο θεωρητικό μέρος, παρουσιάζονται οι διαφορές μεταξύ μονοπολικής και διπολικής διαταραχής, οι μηχανισμοί της κινητικής δραστηριότητας, καθώς και εργαλεία όπως το Actiwatch, που χρησιμοποιούνται για την παρακολούθηση αυτών των δεδομένων. Επίσης, αναλύονται οι βασικές αρχές και τα κριτήρια αξιολόγησης των αλγορίθμων μηχανικής μάθησης (π.χ. ακρίβεια, ευαισθησία, F1-score κτλπ.) που εφαρμόζονται στην ταξινόμηση των δεδομένων.
Στο πειραματικό μέρος, χρησιμοποιούνται τα δεδομένα της εν λόγω βάσης για τη μελέτη της κινητικής δραστηριότητας ατόμων με καταθλιπτικές διαταραχές από τις ημερήσιες καταγραφές. Γίνονται πειράματα με διάφορους ταξινομητές σε πρόβλημα δύο και τριών κλάσεων, με χρήση των τεχνικών αξιολόγησης, διασταυρούμενη επικύρωση(Cross Validation) και επικύρωση με παρακράτηση(Holdout Validation). Επίσης γίνεται χρήση των στατιστικών τεχνικών Kruskal Wallis και ANOVA.
Τα βέλτιστα ποσοστά ταξινόμησης που επιτυγχάνονται είναι 80.7% στη ταξινόμηση δύο κλάσεων και 69.6% στη ταξινόμηση τριών κλάσεων. Συγκεκριμένα, στη ταξινόμηση δύο κλάσεων, των χρονικών παραθύρων καταγραφής κινητικής δραστηριότητας των καταθλιπτικών και των υγιή ατόμων, το βέλτιστο ποσοστό 80.7% επιτυγχάνεται με τον Weighted KNN και τη χρήση της μεθόδου Holdout Validation ενώ στην ταξινόμηση τριών κλάσεων, των χρονικών παραθύρων καταγραφής κινητικής δραστηριότητας των μονοπολικών καταθλιπτικών, των διπολικών καταθλιπτικών και των υγιή ατόμων, το βέλτιστο ποσοστό 69.6% επιτυγχάνεται με τον Ensemble Bagged Trees και χρήση της μεθόδου Cross Validation και Kruskal Wallis Test.Τέλος, προτείνονται βελτιώσεις για τη δημιουργία ενός εύρωστου μοντέλου για την καλύτερη πρόβλεψη και ανάλυση των καταθλιπτικών καταστάσεων και την πιο εν τω βάθη μελέτη.
Η εφαρμογή των αλγορίθμων μηχανικής μάθησης σε δεδομένα που αφορούν τη ψυχική υγεία, με έμφαση στη διασύνδεση κινητικής δραστηριότητας και καταθλιπτικών συμπτωμάτων, μπορεί να προσφέρει ποσοτική πληροφορία στην ταξινόμηση των καταθλιπτικών καταστάσεων και στη μελέτη της κατάθλιψης.
Abstract
The purpose of this thesis is the use of Machine Learning algorithms for the Classification of Depressive States. It focuses on utilizing these techniques to categorize data related to depressive disorders. The study analyzes how individuals' physical activity is connected to their mental states and proposes algorithms for classifying this data. The “Depresjon” dataset, available from the Simula open repository, was used. Overall, there are three categories in which patients are classified. The first category includes individuals diagnosed with unipolar disorder. The second category comprises patients with bipolar disorder. The third category contains all healthy individuals. For all patients, information is provided for the daily recording of their physical activity over several days.
In the theoretical section, the differences between unipolar and bipolar disorder are presented, along with the mechanisms of physical activity and tools such as Actiwatch, which are used for monitoring this data. Additionally, the fundamental principles and evaluation criteria of machine learning algorithms (e.g., precision, recall, F1-score, etc.) applied in data classification are analyzed.
In the experimental section, the data from the aforementioned database is used to study the motor activity of individuals with depressive disorders based on daily recordings. Experiments are conducted with various classifiers in both two-class and three-class problems, utilizing Cross Validation and Holdout Validation evaluation techniques. Statistical techniques such as Kruskal-Wallis and ANOVA are also used.
The optimal classification rates achieved are 80.7% for two-class classification and 69.6% for three-class classification. Specifically, for the two-class classification, between motor activity time windows of depressive and healthy individuals, the optimal rate of 80.7% is achieved with the Weighted KNN and Holdout Validation method. For the three-class classification, between motor activity time windows of unipolar depressive, bipolar depressive, and healthy individuals, the optimal rate of 69.6% is achieved with the Ensemble Bagged Trees, Cross Validation method, and Kruskal-Wallis Test. Finally, improvements are proposed for the creation of a robust model for better prediction and analysis of depressive states and for more in-depth study.
The application of machine learning algorithms to data related to mental health, with an emphasis on the connection between physical activity and depressive symptoms, can provide quantitative information for the classification of depressive states and the study of depression.