Χρήση αλγορίθμων μηχανικής μάθησης για την ταξινόμηση σε ασθενείς με καρκίνο παχέος εντέρου και σε υγιείς, βασισμένη στη λειτουργική ομαδοποίηση γονιδιακών εκφράσεων
The use of machine learning algorithms to classify colorectal cancer patients and healthy, based on functional clustering of gene expressions.
Abstract
Ο καρκίνος του παχέος εντέρου είναι ένας από τους πιο συνήθεις τύπους καρκίνου στον
κόσμο ο οποίος ευθύνεται για ένα μεγάλο αριθμό θανάτων ετησίως ανά το παγκόσμιο.
Χρησιμοποιώντας τεχνικές Μηχανικής Μάθησης στο πεδίο της Βιοπληροφορικής και
της Βιοϊατρικής έρευνας, είναι εφικτό να ανακαλυφθούν καινοτόμες μεθόδοι που να
αποσκοπούν στην έγκαιρη πρόγνωση, διάγνωση και θεραπεία του συγκεκριμένου
τύπου καρκίνου ή άλλων ασθενειών. Στόχος της εργασίας, ήταν πρώτα να
προσδιοριστούν τα σημαντικά γονίδια για τον καρκίνο του παχέος εντέρου και μετά να
βρεθούν τα βιολογικά μονοπάτια που συμμετείχαν τα σημαντικότερα γονίδια. Έπειτα,
με την δημιουργία μοντέλων ταξινόμησης βασισμένα σε βιολογικά μονοπάτια στόχος
ήταν ο διαχωρισμός των υγιών από τους ασθενείς με καρκίνο του παχέος εντέρου και
να προσδιοριστούν τα σημαντικά βιολογικά μονοπάτια για την ασθένεια.
Στην παρούσα διπλωματική εργασία χρησιμοποιήθηκαν δεδομένα γονιδιακών
εκφράσεων από ασθενείς με καρκίνο του παχέος εντέρου από την από την βάση
δεδομένων Gene Expression Omnibu. Επιπλέον, μέσω της R και του πακέτου
KEGGREST αντλήθηκαν τα βιολογικά μονοπάτια του ανθρώπινου οργανισμού μαζί
με τα γονίδια που συμμετέχουν σε αυτά. Με την χρήση της R και διάφορων
ενσωματωμένων πακέτων της, τα δεδομένα επεξεργάστηκαν κατάλληλα,
εφαρμόστηκαν σε αυτά τεχνικές στατιστικής ανάλυσης, επιλογής χαρακτηριστικών και
εξισορρόπησης δεδομένων για να δημιουργηθούν τα μοντέλα Μηχανικής Μάθησης.
Έπειτα, τα μοντέλα αξιολογήθηκαν με δεδομένα τα οποία έμειναν εκτός της
διαδικασίας εκπαίδευσης και συγκρίθηκαν οι αποδόσεις τους με τιμές όπως η ακρίβεια,
η ευαισθησία , η ειδικότητα κ.τ.λ.
Η χρήση τεχνικών Βιοπληροφορικής και Μηχανικής Μάθησης βοήθησε στον
εντοπισμό των βιολογικών μονοπατιών που διαχώριζαν καλύτερα τα δείγματα, ενώ
παράλληλα εντοπίστηκαν οι αλγόριθμοι που είχαν την καλύτερη απόδοση. Για να
επαληθευτεί η σχέση των βιολογικών μονοπατιών που προέκυψαν ως σημαντικά με
τον καρκίνο του παχέος εντέρου πραγματοποιήθηκε βιβλιογραφική έρευνα.
Η συγκεκριμένη τεχνική έχει χαμηλό κόστος και μπορεί να αντικαταστήσει
χρονοβόρες μεθόδους στην Βιοϊατρική έρευνα. Επιπλέον, η χρήση της συγκεκριμένης
μεθοδολογίας μπορεί να συμβάλλει στην ανίχνευση νέων μονοπατιών τα οποία
συσχετίζονται με τον καρκίνο του παχέος εντέρου και με αυτό τον τρόπο να βελτιωθεί
η πρόληψη, η ανίχνευση και η θεραπεία του.
Abstract
Colorectal cancer is one of the most common types of cancer in the world, responsible
for a large number of deaths annually worldwide. Using Machine Learning techniques
in the field of Bioinformatics and Biomedical research, it is possible to discover
innovative methods aimed at early prognosis, diagnosis and treatment of colon cancer
or other diseases. The initial goal of the work was to train Machine Learning models
with gene expression values for sample classification. The biological pathways
involved by the most important genes of the final classifier were then identified to
create new Machine Learning models based on biological pathways. Finally, it was
studied through a literature review whether the best biological pathways of the final
model are associated with colon cancer.
This thesis used data from an experiment of the Gene Expression Omnibus database,
which involved patients with colon cancer. In addition, through R and the KEGGREST
package, the biological pathways of the human organism were extracted along with the
genes involved in them. Using R and its various built-in packages, the data were
appropriately processed, statistical analysis, feature selection and data smoothing
techniques were applied to them to create the Machine Learning models. Then, the
models were evaluated with data left out of the training process and their performances
were compared with values such as accuracy, sensitivity, specificity, etc.
The use of Machine Learning and Bionformatic techniques in this field helped to
identify the biological pathways that best separated the samples, while also identifying
the algorithms that had the best performance. To verify the relationship of the biological
pathways that emerged as significant with colon cancer a literature review was
performed.
This particular technique has a low cost and can replace time-consuming methods in
Biomedical research. In addition, the use of this methodology may contribute to the
detection of new pathways that are associated with colon cancer and in this way to
improve its prevention, detection and treatment.