Μελέτες ταξινόμησης φυσικών προϊόντων με εργαλεία Μηχανικής Μάθησης και Χημειοπληροφορικής
Classification of natural products employing Machine Learning algorithms and Chemoinformatics methods
Keywords
Χημειοπληροφορική ; Κουρκουμίνη ; Ρεσβερατρόλη ; Ομοιότητα Tanimoto ; Μηχανική μάθηση ; Φυσικά προϊόντα ; Μοριακά αποτυπώματαAbstract
Σκοπός
Τα φυσικά προϊόντα είναι χημικές ενώσεις οι οποίες απαντώνται στην φύση. Τα τελευταία χρόνια η αξιοποίηση τους στον χώρο της φαρμακοβιομηχανίας έχει αυξηθεί ραγδαία. Επιπλέον, γίνονται ολοένα και περισσότερες προσπάθειες να συνδυαστούν αλγόριθμοι Μηχανικής Μάθησης και μέθοδοι Χημειοπληροφορικής, ώστε χρησιμοποιώντας είτε φυσικοχημικές, είτε βιολογικές ιδιότητες χημικών ενώσεων, να βοηθήσουν προς την κατεύθυνση καλύτερων προβλέψεων στην διαδικασία ανακάλυψης νέων φαρμάκων. Η παρούσα διπλωματική εργασία έχει ως στόχο να μελετήσει την ικανότητα αλγορίθμων ταξινόμησης Μηχανικής Μάθησης να διαχωρίσουν ενώσεις φυσικών προϊόντων σε δύο κατηγορίες. Για να επιτευχθεί αυτό αξιοποιούνται δεδομένα που προκύπτουν από μεθόδους Χημειοπληροφορικής.
Μεθοδολογία
Δύο φυσικά προϊόντα, η κουρκουμίνη και η ρεσβερατρόλη, επιλέχθηκαν ως ενώσεις αναφοράς. Υπολογίστηκαν τα μοριακά αποτυπώματά τους και μέσα από μία βάση δεδομένων φυσικών προϊόντων επιλέχθηκαν ενώσεις των οποίων η χημική δομή είναι παρόμοια με την χημική δομή των ενώσεων αναφοράς. Η αναζήτηση έγινε με βάση τον αλγόριθμο ομοιότητας Tanimoto. Από τις όμοιες ενώσεις που προέκυψαν δημιουργήθηκαν δύο σύνολα δεδομένων, ένα για την κουρκουμίνη και τις ενώσεις που ήταν δομικά παρόμοιες με αυτή και ένα για την ρεσβερατρόλη αντίστοιχα. Στην συνέχεια, για την κάθε ένωση υπολογίστηκαν 208 μοριακοί περιγραφείς. Μετά από κατάλληλη επεξεργασία τα τελικά σύνολα δεδομένων αποτελούνταν από 79 ενώσεις με 64 μοριακούς περιγραφείς για το σύνολο δεδομένων της κουρκουμίνης και 78 ενώσεις με 64 μοριακούς περιγραφείς για το σύνολο δεδομένων της ρεσβερατρόλης. Έπειτα, ακολούθησε η εκπαίδευση και η αξιολόγηση 10 αλγορίθμων ταξινόμησης Μηχανικής Μάθησης, η οποία χωρίστηκε σε δύο περιπτώσεις. Στην πρώτη περίπτωση χρησιμοποιήθηκαν όλοι οι 64 μοριακοί περιγραφείς για την εκπαίδευση και την αξιολόγηση όλων των ταξινομητών και ακολούθως αξιοποιήθηκαν συνδυασμοί αυτών ανά 63, 62, 61 και 60 περιγραφέων για τον ταξινομητή που σημείωσε την καλύτερη επίδοση. Στην δεύτερη περίπτωση έγινε επιλογή 26 βέλτιστων μοριακών περιγραφέων μέσα από έναν αλγόριθμο μείωσης χαρακτηριστικών. Αντίστοιχα με την προηγούμενη περίπτωση χρησιμοποιήθηκαν όλοι οι βέλτιστοι περιγραφείς για την εκπαίδευση και αξιολόγηση όλων των ταξινομητών και στην συνέχεια αξιοποιηθήκαν όλοι οι πιθανοί συνδυασμοί ανά 25, 24, 23, 22, 21, 20 και ανά 19 μοριακοί περιγραφείς για τον καλύτερο ταξινομητή.
Αποτελέσματα
Τα αποτελέσματα από την αναζήτηση ομοιότητας Tanimoto στην βάση δεδομένων έδειξαν ότι για τιμές Tanimoto μεγαλύτερες ή ίσες από 0,75 υπάρχουν 79 ενώσεις με χημική δομή παρόμοια με την δομή της κουρκουμίνης και 79 ενώσεις με χημική δομή παρόμοια με την δομή της ρεσβερατρόλης. Την καλύτερη επίδοση σημείωσε ο ταξινομητής Random Forest, τόσο για τον συνδυασμό των 64 μοριακών περιγραφέων όσο και για τον συνδυασμό των 26 βέλτιστων μοριακών περιγραφέων, ενώ ο ταξινομητής MLP σημείωσε τις χειρότερες επιδόσεις και στις δύο περιπτώσεις.
Συμπεράσματα
Η αξιοποίηση όσο το δυνατόν περισσότερων μοριακών περιγραφέων παρέχει καλύτερα αποτελέσματα αξιοποιώντας περισσότερη χρήσιμη φυσικοχημική πληροφορία. Κρίνεται απαραίτητη η μείωση των χαρακτηριστικών, εν προκειμένω των μοριακών περιγραφέων και η επιλογή βέλτιστων μοριακών περιγραφέων, καθώς με αυτόν τον τρόπο οι ταξινομητές πετυχαίνουν υψηλότερα ποσοστά ακρίβειας και μειώνεται το ενδεχόμενο υπερπροσαρμογής. Χρειάζεται να γίνουν περισσότερες μελέτες με μεγαλύτερο αριθμό δεδομένων ώστε να εξαχθούν πιο αποτελεσματικά συμπεράσματα.
Abstract
Purpose
Natural products are chemical compounds that can be found in nature. The utilization of natural products in pharmaceutical industry has risen over the past years. In addition, more efforts are being made to combine Machine Learning algorithms and Chemoinformatics methods in order to lean towards better predictions in the process of drug discovery, by using either physicochemical or biological properties of chemical compounds. This thesis aims to study the capability of Machine Learning classification algorithms to discriminate natural product compounds into two classes. To achieve this goal, data extracted with Chemoinformatics methods are being used.
Methods
Curcumin and resveratrol are two natural products, which are being used as reference compounds. Their molecular fingerprints are being calculated and then compounds with similar chemical structure are being selected through a natural product database. Tanimoto similarity algorithm is being used for similarity search inside the database. Two datasets are being created from the similar compounds, one dataset for curcumin and its similars and one dataset for resveratrol and its equivalents. Subsequently, 208 molecular descriptors are being calculated for every compound. After proper processing, final datasets contain 79 compounds with 64 descriptors for curcumin dataset and 78 compounds with 64 descriptors for resveratrol dataset. The process of training and evaluation of 10 Machine Learning classification algorithms is divided into two different cases. On the first case, 64 descriptors used for training and evaluation of all classifiers and then combinations per 63, 62, 61 and 60 descriptors used in accordance with the best classifier. On the second case, 26 best descriptors were selected throughout a feature elimination algorithm. As before, all 26 best descriptors used for training and evaluation of all classifiers and then combinations per 25, 24, 23, 22, 21, 20 and 19 descriptors used in accordance with the best classifier.
Results
The results from the Tanimoto similarity search inside the database showed that there are 79 structure similar compounds with curcumin and 79 structure similar compounds with resveratrol, for Tanimoto values greater or equal to 0,75. The classifier with the best accuracy results for the combination of 64 descriptors and the combination of 26 best descriptors was Random Forest classifier. On the other hand, MLP classifier had the worst accuracy results for both cases.