The analysis of histopathological images of colorectal cancer (CRC) using machine learning methods

Χάπεντσιουκ, Θεοδώρα

dc.contributor.advisor	Cavouras, Dionisis
dc.contributor.author	Χάπεντσιουκ, Θεοδώρα
dc.date.accessioned	2024-03-28T10:50:39Z
dc.date.available	2024-03-28T10:50:39Z
dc.date.issued	2024-03-14
dc.identifier.uri	https://polynoe.lib.uniwa.gr/xmlui/handle/11400/6222
dc.identifier.uri	http://dx.doi.org/10.26265/polynoe-6058
dc.description.abstract	With this drastic increase in cancer rates and deaths because of cancer, it is essential to find new and improved ways to prevent it as soon as possible (at early stages), especially colorectal cancer, which is ranked second in the cancers that cause death. Nowadays, it is occurring more and more among young people, often at an advanced stage. As it does not have specific symptoms, colorectal cancer is difficult to diagnose. Also, it is crucial to differentiate the benign lesions from the malignancies. Thus, a decision-support system was developed in this study to support this purpose. For this aim, a dataset of histopathological images with benign and malignant cases was utilized to generate features (68 in total), and statistical analysis was performed to find the features that can differentiate the categories. Furthermore, these features were used as input for creating a machine-learning system. Among the classifiers that we used were the K-Nearest Neighbors (KNN), Classification Trees (CART), and Random Forest. Recursive Feature Elimination (RFE) was employed for feature reduction, and the evaluation was conducted using Bootstrap and K-Fold cross-validation, focusing on accuracy, precision, and recall metrics. Moreover, further investigation was made to differentiate the two categories by employing some Convolutional Neural Networks (CNNs) utilizing pre-trained models, such as Vgg16, MobileNetV2, ResNet50V2, InceptionV3, and EfficientNetB0. The research proceeded by splitting the two categories into five (healthy, benign, grades I, II, and III) and testing every combination in pairs of two. The same steps, as described for the two, were followed for the five categories. The top five features that were observed to distinguish the two classes were the skewness, energy range, correlation mean, LBP6, and Gabor energy range. Also, the RF classifier using the bootstrap evaluation method satisfactorily differentiated benign from malignant with an accuracy of 90.20%, 87.63% sensitivity, and 91.99% specificity. Lastly, the RES50 model showed the best accuracy of 90.92% -for 100 epochs. Our system also performed adequately for the five categories despite the reduced size of the data per class.	el
dc.format.extent	98	el
dc.language.iso	en	el
dc.publisher	Πανεπιστήμιο Δυτικής Αττικής	el
dc.rights	Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές	*
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές	*
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές	*
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/	*
dc.subject	Colorectal cancer	el
dc.subject	Benign	el
dc.subject	Malignant	el
dc.subject	Statistical analysis	el
dc.subject	Machine learning	el
dc.subject	Deep learning	el
dc.subject	Histopathological Images	el
dc.title	The analysis of histopathological images of colorectal cancer (CRC) using machine learning methods	el
dc.title.alternative	Ανάλυση ιστοπαθολογικών εικόνων καρκίνου του παχέος εντέρου με μεθόδους μηχανικής μάθησης	el
dc.type	Διπλωματική εργασία	el
dc.contributor.committee	Glotsos, Dimitris
dc.contributor.committee	Kostopoulos, Spiros
dc.contributor.faculty	Σχολή Μηχανικών	el
dc.contributor.department	Τμήμα Μηχανικών Βιοϊατρικής	el
dc.description.abstracttranslated	Με αυτή τη δραστική αύξηση των ποσοστών καρκίνου και των θανάτων εξαιτίας του καρκίνου, είναι απαραίτητο να βρεθούν νέοι και βελτιωμένοι τρόποι για την πρόληψή του το συντομότερο δυνατό (σε πρώιμα στάδια), ιδίως του καρκίνου του παχέος εντέρου, ο οποίος κατατάσσεται στη δεύτερη θέση των καρκίνων που προκαλούν θάνατο. Στις μέρες μας, εμφανίζεται όλο και περισσότερο στους νέους, συχνά σε προχωρημένο στάδιο. Καθώς δεν έχει συγκεκριμένα συμπτώματα, ο καρκίνος του παχέος εντέρου είναι δύσκολο να διαγνωστεί. Επίσης, είναι ζωτικής σημασίας να διαφοροποιούνται οι καλοήθεις αλλοιώσεις από τις κακοήθεις. Έτσι, στην παρούσα μελέτη αναπτύχθηκε ένα σύστημα υποστήριξης αποφάσεων για την επίτευξη αυτού του σκοπού. Για τον σκοπό αυτό, χρησιμοποιήθηκε ένα σύνολο δεδομένων ιστοπαθολογικών εικόνων με καλοήθεις και κακοήθεις περιπτώσεις για τη δημιουργία χαρακτηριστικών (68 συνολικά) και πραγματοποιήθηκε στατιστική ανάλυση για την εύρεση των χαρακτηριστικών που μπορούν να διαφοροποιήσουν τις κατηγορίες. Επιπλέον, αυτά τα χαρακτηριστικά χρησιμοποιήθηκαν ως είσοδος για τη δημιουργία ενός συστήματος μηχανικής μάθησης. Μεταξύ των ταξινομητών που χρησιμοποιήσαμε ήταν οι K-Nearest Neighbors (KNN), τα Classification Trees (CART) και το Random Forest. Για τη μείωση των χαρακτηριστικών χρησιμοποιήθηκε η Recursive Feature Elimination (RFE) και η αξιολόγηση πραγματοποιήθηκε με τη χρήση Bootstrap και K-Fold cross-validation, εστιάζοντας στις μετρικές παραμέτρους της ακρίβειας, ευαισθησίας και ειδικότητας. Επιπλέον, έγινε περαιτέρω έρευνα για τη διαφοροποίηση των δύο κατηγοριών με τη χρήση ορισμένων συνελικτικών νευρωνικών δικτύων (CNN) που χρησιμοποιούν προεκπαιδευμένα μοντέλα, όπως τα Vgg16, MobileNetV2, ResNet50V2, InceptionV3 και EfficientNetB0. Η έρευνα προχώρησε με το διαχωρισμό των δύο κατηγοριών σε πέντε (υγιείς, καλοήθεις, βαθμοί I, II και III) και τη δοκιμή κάθε συνδυασμού σε ζεύγη των δύο. Για τις πέντε κατηγορίες ακολουθήθηκαν τα ίδια βήματα, όπως περιγράφηκαν για τις δύο. Τα πέντε καλύτερα χαρακτηριστικά που παρατηρήθηκαν να διακρίνουν τις δύο κατηγορίες ήταν: skewness, energy range, correlation mean, LBP6, and Gabor energy range. Επίσης, ο ταξινομητής RF χρησιμοποιώντας τη μέθοδο αξιολόγησης bootstrap διαφοροποίησε ικανοποιητικά την καλοήθη από την κακοήθη μορφή με ακρίβεια 90,20%, ευαισθησία 87,63% και ειδικότητα 91,99%. Τέλος, το μοντέλο RES50 παρουσίασε την καλύτερη ακρίβεια 90,92% -για 100 εποχές. Το σύστημά μας είχε επίσης ικανοποιητικές επιδόσεις και για τις πέντε κατηγορίες παρά το μειωμένο μέγεθος των δεδομένων ανά κατηγορία.	el

Files in this item

Name:: Hapentsiouk_48017102.pdf
Size:: 5.534Mb
Format:: PDF
Description:: Διπλωματική Εργασία

View/Open

This item appears in the following Collection(s)

Διπλωματικές εργασίες
Διπλωματικές εργασίες τμήματος Μηχανικών Βιοϊατρικής

Show simple item record

Except where otherwise noted, this item's license is described as
Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές