Development of machine learning models and usage of computational chemistry tools to predict the activity of potential anticancer compounds against K-Ras protein
Ανάπτυξη μοντέλων μηχανικής μάθησης και χρήση εργαλείων υπολογιστικής χημείας για την πρόβλεψη δραστικότητας πιθανών αντικαρκινικών ενώσεων έναντι της πρωτεΐνης K-Ras

Διπλωματική εργασία
Συγγραφέας
Φραγκιαδάκη, Γεωργία
Ημερομηνία
2025-02-17Επιβλέπων
Cavouras, DionisisΛέξεις-κλειδιά
Cancer ; KRAS ; Molecular docking ; Mutations ; Natural compounds ; Oncogene ; Computational chemistry ; Machine learning ; Statistical analysisΠερίληψη
Cancer is a fatal disease with the main identified cause being the alterations in DNA. KRAS is an oncogene highly linked to cancer that appears in the human genome and encodes the respective protein. In the present thesis, the mutation of KRAS G12D was examined as a target for potential anticancer compounds with the use of machine learning and computational chemistry tools. As a first step, a dataset of 530 preprocessed compounds with a total of 208 descriptors (features) was used to train the machine learning models. The significant descriptors that could distinguish the potential anticancer compounds were characterized. Following that, molecular docking experiments were performed between the target protein KRAS G12D and a total of 2000 natural compounds. The experiment was performed using two software programs in an effort to identify compounds that predicted to present inhibitory activity against the examined protein. The results analysis indicated that 6 natural products presented promising results. At last, the important descriptors were calculated for these compounds, and based on them, they were classified. 2 of them were categorized as potential anticancer compounds with satisfactory probabilities
of 0,7 and 0,88. Our results were optimistic and can lead to the conclusion that machine learning can be combined with molecular docking to select compounds with anticancer activity
Περίληψη
Ο καρκίνος είναι μια θανατηφόρα ασθένεια με κύρια εξακριβωμένη αιτία τις αλλαγές στο DNA. Το KRAS είναι ένα ογκογονίδιο που έχει άμεση σύνδεση με τον καρκίνο. Βρίσκεται στο ανθρώπινο γονιδίωμα και κωδικοποιεί την αντίστοιχη πρωτεΐνη. Στην παρούσα διπλωματική η μεταλλαγμένη πρωτεΐνη KRAS G12D εξετάστηκε σαν στόχος για την εύρεση πιθανών αντικαρκινικών ενώσεων με τη χρήση μοντέλων Μηχανικής Μάθησης και εργαλείων υπολογιστικής χημείας. Στο πρώτο μέρος, ένα επεξεργασμένο dataset αποτελούμενο από 530 χημικές ενώσεις και 208 χημικούς περιγραφείς, χρησιμοποιήθηκε για να εκπαιδεύσει τα μοντέλα Μηχανικής Μάθησης. Στη συνέχεια βρέθηκαν οι σημαντικοί περιγραφείς που μπορούσαν να ξεχωρίσουν τις πιθανές αντικαρκινικές ενώσεις και απομονώθηκαν. Στο δεύτερο μέρος, πραγματοποιήθηκαν πειράματα μοριακής πρόσδεσης μεταξύ της πρωτεΐνης στόχου KRAS G12D και ενός συνόλου που αποτελείται από 2.000 φυσικές ενώσεις. Τα πειράματα πραγματοποιήθηκαν με χρήση δύο διαφορετικών λογισμικών, με σκοπό την πρόβλεψη ενώσεων που παρουσίαζαν ανασταλτική ικανότητα έναντι της πρωτεΐνης στόχου. Από την ανάλυση των αποτελεσμάτων προκρίθηκαν συνολικά 6 ενώσεις ως οι πλέον υποσχόμενες. Τέλος, με σκοπό τη σύνδεση της Μηχανικής Μάθησης και των πειραμάτων μοριακής πρόσδεσης, υπολογίστηκαν οι σημαντικοί περιγραφείς για αυτές τις ενώσεις, με σκοπό την ταξινόμηση τους. Από το σύνολο των ενώσεων, δύο ταξινομήθηκαν ως πιθανές αντικαρκινικές ενώσεις με ικανοποιητική πιθανότητα 0,77 και 0,8 αντίστοιχα. Τα αποτελέσματα ήταν ικανοποιητικά και αποδεικνύουν ότι η Μηχανική Μάθηση και η μοριακή πρόσδεση, μπορούν να συνδυαστούν και να χρησιμοποιηθούν ως μια μεθοδολογία εύρεσης νέων αντικαρκινικών ενώσεων, υπολογίζοντας την πιθανότητα μίας ένωσης να προσδεθεί.