Radiogenomic analysis of lung cancer
Ραδιογονιδιωματική ανάλυση του καρκίνου του πνεύμονα

Μεταπτυχιακή διπλωματική εργασία
Συγγραφέας
Τερζή, Αθηνά Μαρίνα
Ημερομηνία
2025-02Επιβλέπων
Athanasiadis, EmmanouilΛέξεις-κλειδιά
Lung cancer ; Radiomics ; Genomic features ; Radiogenomics ; Machine learning ; Feature reduction ; LASSO ; PCA ; mRMR ; HistologyΠερίληψη
This thesis focuses on the development of a machine-learning model for classifying the two
primary histological subtypes of lung cancer: adenocarcinoma and squamous cell carcinoma. The
proposed model integrates radiomic features extracted from patients’ computed tomography
(CT) images, genomic data, and clinical characteristics to evaluate their combined potential in
achieving accurate and reliable classification. The primary aim is to evaluate the effectiveness of
a radiogenomic approach in classifying lung cancer subtypes and to determine if radiomic
features alone can achieve comparable performance. Additionally, the study investigates
whether genomic data alone can serve as a reliable input for classification tasks.
To identify the most suitable machine-learning approach, three classifiers—Random Forest (RF),
Support Vector Machine (SVM), and Logistic Regression—are initially applied to the dataset. The
classifier with the highest performance is then used in subsequent analyses involving feature
reduction. Three advanced feature reduction methods—LASSO (Least Absolute Shrinkage and
Selection Operator), PCA (Principal Component Analysis), and mRMR (Minimum Redundancy
Maximum Relevance)—are employed to refine the dataset by selecting the most relevant
features and further optimizing classification accuracy. The performance is assessed across three
scenarios: radiomic, genomic, and radiogenomic approaches.
The results indicate that the radiogenomic model outperforms the radiomic approach with AUC
95,1% against 52,7% after normalization. Furthermore, combining three feature reduction
methods significantly enhances the classification accuracy, confirming their utility in identifying
the most informative attributes from the dataset with the radiogenomic approach reaching an
AUC of 98,9% and the radiomic an AUC of 73,6%. The genomic approach showcases AUC 97,3%
highlighting the importance of the RNA-Sequencing data and proving that genomic data can be a
standalone input.
This dual investigation contributes not only to identifying the optimal approach for histological
classification in lung cancer but also recommends an improved methodology for feature selection
in complex datasets. The findings have significant implications for advancing the role of
radiogenomics in precision oncology and highlight the potential of using only genomics in
machine learning to enhance cancer diagnostics and patient stratification.
Περίληψη
Αυτή η διπλωματική επικεντρώνεται στην ανάπτυξη ενός μοντέλου μηχανικής μάθησης για την ταξινόμηση των δύο κύριων ιστολογικών υποτύπων του καρκίνου του πνεύμονα: του αδενοκαρκινώματος και του ακανθοκυτταρικού καρκινώματος. Το προτεινόμενο μοντέλο συνδυάζει ραδιομικά χαρακτηριστικά που εξάγονται από αξονικές τομογραφίες (CT) ασθενών, γονιδιωματικά δεδομένα και κλινικές παραμέτρους, με στόχο την αξιολόγηση της συνδυαστικής τους ικανότητας στην ακριβή και αξιόπιστη ταξινόμηση. Ο βασικός στόχος είναι να διερευνηθεί η αποτελεσματικότητα μιας ραδιογονιδιωματικής προσέγγισης στην ταξινόμηση των υποτύπων του καρκίνου του πνεύμονα, καθώς και να διαπιστωθεί αν τα ραδιομικά χαρακτηριστικά από μόνα τους μπορούν να επιτύχουν συγκρίσιμα αποτελέσματα. Παράλληλα, η μελέτη εξετάζει κατά πόσο τα γονιδιωματικά δεδομένα μπορούν να λειτουργήσουν ως ανεξάρτητος δείκτης για την ταξινόμηση.
Για τον εντοπισμό της βέλτιστης προσέγγισης, δοκιμάζονται αρχικά τρεις ταξινομητές—Random Forest (RF), Support Vector Machine (SVM) και Λογιστική Παλινδρόμηση. Ο ταξινομητής με την υψηλότερη απόδοση επιλέγεται για την δημιουργία του μοντέλου, η οποία περιλαμβάνει μια πολλαπλή μέθοδο μείωσης χαρακτηριστικών. Τρεις προηγμένες μέθοδοι επιλογής χαρακτηριστικών—LASSO (Least Absolute Shrinkage and Selection Operator), PCA (Ανάλυση Κύριων Συνιστωσών) και mRMR (Ελάχιστη Πλεονασματική Μέγιστη Σχετικότητα)—χρησιμοποιούνται για τη βελτιστοποίηση του συνόλου δεδομένων, διατηρώντας τα πιο σημαντικά χαρακτηριστικά και ενισχύοντας την ακρίβεια της ταξινόμησης. Η απόδοση του μοντέλου αξιολογείται σε τρία διαφορετικά σενάρια: ραδιομική, γονιδιωματική και ραδιογονιδιωματική προσέγγιση.
Τα αποτελέσματα καταδεικνύουν ότι το ραδιογονιδιωματικό μοντέλο υπερτερεί της ραδιομικής προσέγγισης, επιτυγχάνοντας AUC 95,1% έναντι 52,7% μετά την κανονικοποίηση. Επιπλέον, ο συνδυασμός και των τριών μεθόδων μείωσης χαρακτηριστικών βελτιώνει σημαντικά την απόδοση του μοντέλου, επιβεβαιώνοντας τη σημασία της επιλογής των πιο κρίσιμων μεταβλητών. Συγκεκριμένα, η ραδιογονιδιωματική προσέγγιση επιτυγχάνει AUC 98,9%, ενώ η ραδιομική 73,6%. Η γονιδιωματική προσέγγιση παρουσιάζει AUC 97,3%, υπογραμμίζοντας τη σημασία των δεδομένων RNA-Sequencing και επιβεβαιώνοντας ότι τα γονιδιωματικά δεδομένα μπορούν να χρησιμοποιηθούν ως αυτόνομη είσοδος για την ταξινόμηση.
Αυτή η εργασία συμβάλλει όχι μόνο στον εντοπισμό της βέλτιστης προσέγγισης για την ιστολογική ταξινόμηση των δυο βασικών υποτύπων του καρκίνου του πνεύμονα, αλλά και στην προώθηση μιας βελτιωμένης μεθοδολογίας επιλογής χαρακτηριστικών σε πολύπλοκα σύνολα δεδομένων. Τα ευρήματα έχουν σημαντικές επιπτώσεις στην προώθηση του ρόλου της ραδιογονιδιωματικής στην εξατομικευμένη ογκολογία, ενώ παράλληλα αναδεικνύουν τη δυνατότητα χρήσης γονιδιωματικών δεδομένων ως μοναδική είσοδο σε μοντέλα μηχανικής μάθησης για τη βελτίωση της διάγνωσης του καρκίνου και της ταξινόμησης των ασθενών.