Εφαρμογή τεχνικών μηχανικής μάθησης στον χώρο των βιολογικών μονοπατιών για την ταξινόμηση ασθενών με Alzheimer’s και την ενίσχυση της λειτουργικής κατανόησης της νόσου
Application of machine learning techniques in the field of biological pathways to classify patients with Alzheimer's and enhance the functional understanding of the disease
Keywords
Νόσος Αλτσχάιμερ ; Μηχανική μάθηση ; Βιοπληροφορική ; Βιολογικά μονοπάτια ; Γονιδιακή έκφρασηAbstract
Η νόσος του Αλτσχάιμερ αποτελεί την πιο συχνά εμφανιζόμενη νευροεκφυλιστική ασθένεια και την πιο συνηθισμένη μορφή άνοιας. Η συχνότητα εμφάνισης της νόσου σε συνδυασμό με την άγνωστη μέχρι τώρα αιτία εμφάνισής της, την καθιστά ενδιαφέρον αντικείμενο μελέτης για πολλούς επιστήμονες. Η νόσος του Αλτσχάιμερ αποτελεί κεντρικό αντικείμενο ανάλυσης στην παρούσα μελέτη με την χρήση τεχνικών μηχανικής μάθησης τόσο για την καλύτερη κατανόηση της όσο και για την άντληση χρήσιμων πληροφοριών σχετικά με αυτην.
Βασικός στόχος της διπλωματικής αυτής αποτελεί η δημιουργία ενός σχήματος ταξινόμησης για την μελέτη της διαχωριστικής ικανότητας που κατέχουν τα βιολογικά μονοπάτια στην νόσο του Αλτσχάιμερ , η σύγκριση του σχήματος ταξινόμησης αυτού με απλούστερα σχήματα ταξινόμησης που βασίζονται αποκλειστικά σε δεδομένα γονιδιακής έκφρασης και η διερεύνηση σχετικά με την ικανότητα του μοντέλου να εμβαθύνει στην λειτουργική κατανόηση της νόσου.
Η δημιουργία του σχήματος ταξινόμησης στηρίχθηκε σε μια «διεπίπεδη» επιλογή σημαντικών χαρακτηριστικών/features και στην χρήση αλγορίθμων και μεθόδων μηχανικής μάθησης.Το περιβάλλον στο οποίο εκτελέστηκε το προγραμματιστικό σκέλος της διπλωματικής ήταν η πλατφόρμα Rstudio και η συγγραφή του κώδικα έγινε με την χρήση της γλώσσας προγραμματισμού R και με την βοήθεια μιας σειράς πακέτων που διαθέτει η πλατφόρμα. Τα δεδομένα που χρησιμοποιήθηκαν, αντλήθηκαν απο τις βιολογικές βάσεις δεδομένων Gene Expression Omnibus (GEO) και Kyoto Encyclopedia of Genes and Genomes ( KEGG) ενώ για την ανάλυση των αποτελεσμάτων χρησιμοποιήθηκε η πλατφόρμα EnrichR η οποία αφορά μια πλατφόρμα ανάλυσης εμπλουτισμού .
Για συγκριτικούς σκοπούς δημιουργήθηκε ένα μοντέλο βασισμένο σε γονίδια το οποίο εκπαιδεύτηκε και αξιολογήθηκε στα ίδια δεδομένα γονιδιακής έκφρασης για την νόσο του Αλτσχάιμερ με το μοντέλο που βασίστηκε σε βιολογικά μονοπάτια. Μετά την δημιουργία και τον δύο μοντέλων τα αποτελέσματα ήταν ιδιαίτερα ενθαρρυντικά για το μοντέλο που βασίστηκε σε βιολογικά μονοπάτια , αφού μπόρεσε με επιτυχία να ανταγωνιστεί και να ξεπεράσει ελαφρώς το μοντέλο που βασίστηκε αποκλειστικά σε δεδομένα γονιδιακής έκφρσης.
Συμπερασματικά, από την απόδοση του μοντέλου γίνεται αντιληπτό οτί η τεχνική που χρησιμοποιήθηκε μπορεί να γενικευτεί σε διάφορα σετ δεδομένων τόσο για την νόσο του Αλτσχάιμερ όσο και για άλλες νόσους και τελικά να αποτελέσει χρήσιμο εργαλείο στην Βιοιατρική έρευνα. Σε μελλοντικές μελέτες η χρήση μεγαλύτερων και πιο πολύπλοκων σετ δεδομένων για την νόσο του Αλτσχάιμερ ή για άλλες νόσους μπορεί να δώσει ενδιαφέροντα αποτελέσματα που θα συμβάλλουν στην λειτουργική κατανόηση των ασθενειών.
Abstract
Alzheimer's disease is the most commonly occurring neurodegenerative disease and the most common form of dementia. The incidence of the disease in combination with the hitherto unknown cause of its occurrence, makes it an interesting subject of study for many scientists. Alzheimer's disease is a central subject of analysis in this study using machine learning techniques both to better understand it and to obtain useful information about it.
The main goal of this diploma thesis was the creation of a classification scheme for the study of the discriminating ability of the biological pathways in Alzheimer's disease, the comparison of this classification scheme with simpler classification schemes based solely on gene expression data and the investigation regarding the ability of the model to deepen the functional understanding of the disease.
The creation of the classification scheme was based on a "two-level" feature selection and the use of algorithms and machine learning methods. The environment in which the programming part of the diploma was executed was the Rstudio platform , the writing of the code was done using the R programming language and a series of packages provided by the platform. The data used were drawn from the biological databases Gene Expression Omnibus (GEO) and Kyoto Encyclopedia of Genes and Genomes (KEGG), while the EnrichR which is an enrichment analysis platform.was used to analyze the results.
For comparative purposes, a gene-based model was created which was trained and evaluated on the same gene expression data for Alzheimer's disease as the model based on biological pathways. After the creation of both models, the results were particularly encouraging for the model based on biological pathways, since it was able to compete with and finally surpass the model based solely on gene expression data.
In conclusion, from the performance of the model it is obvious that the technique used can be comfortably generalized to various sets of data on both Alzheimer's disease and other diseases and ultimately be a useful tool in Biomedical research. In future studies the use of larger and more complex data sets for Alzheimer's disease or other diseases may give interesting results that will interfere with the functional understanding of diseases