Ταξινόμηση ιστοπαθολογικών εικόνων μικροσκοπίας σε κατηγορίες κακοήθειας
Classification of histopathology microscopy images into malignancy categories
Keywords
Matlab ; Μικροσκοπία ; Ιστοπαθολογία ; Όγκος εγκεφάλου ; Συστήματα υποστήριξης απόφασηςAbstract
Η ταξινόμηση ιστοπαθολογικών εικόνων μικροσκοπίας σε κατηγορίες κακοήθειας αποτελεί κρίσιμη διαδικασία για την ανίχνευση και την πρόβλεψη των νόσων. Η παρούσα διπλωματική εργασία πραγματεύεται την επεξεργασία και ανάλυση ιστοπαθολογικών εικόνων καρκίνου εγκεφάλου με σκοπό την ταξινόμηση των όγκων σε βαθμό κακοήθειας μέσω ενός συστήματος ταξινόμησης που αναπτύχθηκε σε περιβάλλον Matlab. Τα δεδομένα (43 εικόνες χαμηλής κακοήθειας και 44 εικόνες υψηλής κακοήθειας) αποκτήθηκαν από το εργαστήριο Medical Image & Signal Processing του τμήματος Μηχανικών Βιοϊατρικής του Πανεπιστημίου Δυτικής Αττικής [1]. Πρώτα έγινε επεξεργασία των εικόνων με διάφορα φίλτρα για την ενίσχυση της αντίθεσης και την ομαλοποίηση των εικόνων έτσι ώστε να γίνει εστίαση στα σημεία ενδιαφέροντος, τους πυρήνες των κυττάρων. Έπειτα πραγματοποιήθηκε τμηματοποίηση των πυρήνων και εξαγωγή μορφολογικών χαρακτηριστικών και χαρακτηριστικών υφής. Αφού έγινε η εξαγωγή των χαρακτηριστικών, χρησιμοποιήθηκαν δύο ταξινομητές, ο ταξινομητής ελάχιστης απόστασης (Minimum Distance Classifier) και ο Bayesian ταξινομητής. Και οι δύο ταξινομητές δοκιμάστηκαν με δύο διαφορετικές μεθόδους εκπαίδευσης, την leave-one-out και την k-fold cross validation με k=5. Επίσης χρησιμοποιήθηκε η μέθοδος της εξαντλητικής αναζήτησης (exhaustive search) για την εύρεση του καλύτερου συνδυασμού χαρακτηριστικών μέχρι και ανά 12. Σύμφωνα με τα αποτελέσματα και οι δύο ταξινομητές αποδείχθηκαν αρκετά αποδοτικοί στην σωστή ταξινόμηση των εικόνων. Ο Bayesian ταξινομητής με τη μέθοδο leave-one-out έφτασε σε ένα ποσοστό ακρίβειας της τάξης του 77% στην γενίκεση σε άγνωστα δεδομένα, ενώ ο ταξινομητής ελάχιστης απόστασης κατάφερε ένα 76% με την ίδια μέθοδο εκπαίδευσης. Με τη μέθοδο k-fold cross validation (k=5) ο Bayesian ταξινομητής έφτασε το ποσοστό του 77% στην ακρίβεια ταξινόμησης όσο και ο ταξινομητής ελάχιστης απόστασης. Και στις δύο περιπτώσεις ο Bayesian ταξινομητής παρουσίασε υψηλότερη σταθερότητα λόγω της μικρότερης απόκλισης από τη μέση τιμή της ακρίβειας. Τα αποτελέσματα αυτά δίνουν ένα αρκετά ικανοποιητικό ποσοστό στην γενίκευση των συστημάτων σε άγνωστα δεδομένα, ωστόσο υπάρχει περιθώριο βελτίωσης με την επίτευξη καλύτερης τμηματοποίησης των πυρήνων και τη χρήση περισσότερων εικόνων και χαρακτηριστικών για την εκπαίδευση των ταξινομητών.
Abstract
The classification of histopathological microscopy images into malignancy categories is a critical process for disease detection and prediction. This thesis addresses the processing and analysis of brain cancer histopathological images, aiming to classify tumors by their malignancy grade using a classification system developed in Matlab. The data (43 low malignancy images and 44 high malignancy images) were obtained from the Medical Image & Signal Processing Laboratory of the Biomedical Engineering Department at the University of West Attica [1]. Initially, the images were processed using various filters to enhance contrast and normalize the images to focus on the regions of interest, the cell nuclei. Next, nuclei segmentation was performed, followed by the extraction of morphological and texture features. After feature extraction, two classifiers were used: the Minimum Distance Classifier and the Bayesian Classifier. Both classifiers were tested with two different training methods, leave-one-out and k-fold cross-validation with k=5. Additionally, the exhaustive search method was used to find the best feature combination, up to sets of twelve features. According to the results, both classifiers proved to be quite effective in correctly classifying the images. The Bayesian classifier with the leave-one-out method achieved an accuracy rate of 77% in generalizing to unknown data, while the Minimum Distance Classifier reached 76% with the same training method. With the k-fold cross-validation method (k=5), the Bayesian classifier reached an accuracy rate of 77%, as did the Minimum Distance Classifier. In both cases, the Bayesian classifier demonstrated higher stability due to smaller deviation from the mean accuracy. These results provide a satisfactory generalization rate for the systems on unknown data; however, there is room for improvement through better nucleus segmentation and the use of more images and features for classifier training.