Thorough study of the cardiac arrhythmia by applying the methods of statistical analysis, machine learning and computational chemistry
Ενδελεχής μελέτη της καρδιακής αρρυθμίας μέσω των εργαλείων της στατιστικής ανάλυσης, μηχανικής μάθησης και υπολογιστικής χημείας

Λέξεις-κλειδιά
Cardiac arrhythmia ; Beta 2 – adrenergic receptor ; 2RH1 ; Machine learning ; Statistical analysis ; Molecular docking experiments ; Possible ligandsΠερίληψη
This thesis develops the phenomenon of cardiac arrhythmia, which is a condition with
several subtypes; some of these types can be kept in control using pharmacological
interventions with the help of a cardiologist, while others may lead to lethal outcomes.
The prediction of arrhythmia was the main focus of this study, and by implementing
machine learning methods combined with classification algorithms, it became possible
to predict the events of arrhythmia. Therefore, through further statistical analysis, some
indicators associated with the disease were derived, and as a result of the previously
important recognition about the disease, their explanation and relation to the disease
were examined.
The dataset used, taken from Kaggle, consisted of 452 records and 280 features that
tested whether the predictive model could detect one of the 15 types of arrhythmia. The
results were good, with the best predictive model achieving an accuracy rate of 87.07%.
Further studies on the disease thereafter began with the employment of the β2
adrenergic receptor, whose stimulation produces pathologies in both the respiratory and
cardiovascular systems. The study aimed at finding those agents that act as agonists in
deactivating the adrenergic receptor. Within this research, some preliminary
computational experiments were performed using statistical analysis besides machine
learning techniques to select the most relevant markers and evaluate their predictive
capabilities. Then, in the molecular binding experiments, one certain branch of
computational chemistry made an attempt to discover the binders from the library of
natural ZINC compounds by the designated receptor known as 2RH1, which is known
for its potent inhibiting activity upon binding to the receptor. The last attempt was made
in the direction of combining the results obtained from the first two parts for the purpose
of knowing whether candidate ligands combined with the major determinant points of
the receptor act as agonists and how they can be identified in nature.
The dataset consisted of 1470 records and 215 descriptors, with statistical analysis
showing that 71 out of 215 descriptors had a statistically significant difference. In the
machine learning approach, the prediction model created achieved an accuracy rate of
93.45%, with 7 of the 71 descriptors being the most suitable. Through the molecular
docking experiments, out of the 2000 potential ligands screened from the ZINC
database, only 10 were further investigated using the Maestro software. The 2 final
ligands belong to the flavonoid and anthraquinone families respectively.
Περίληψη
Η παρούσα διπλωματική εργασία πραγματεύεται την μελέτη της καρδιακής αρρυθμίας.
Μια ασθένεια με πολλές υποκατηγορίες όπου μερικές έχουν μια εύκολη αντιμετώπιση
με μια φαρμακευτική αγωγή και παρακολούθηση από καρδιολόγο, ενώ αντίθετα άλλες
μπορούν να οδηγήσουν στον θάνατο. Ο στόχος της εργασίας αυτής αρχικά ήταν η
πρόβλεψη της αρρυθμίας, με την χρήση της μηχανικής μάθηση καθώς και των
αλγορίθμων ταξινόμησης έγινε εφικτή η πρόβλεψή της. Ακόμα με την χρήση της
στατιστικής ανάλυσης μπόρεσαν να βρεθούν δείκτες της ασθένειας οι οποίοι τείνουν
να είναι σημαντικοί ως προς αυτή και πραγματοποιήθηκε εξήγησή τους και συσχέτιση
με την ασθένεια.
Το εν λόγω σύνολο δεδομένων, που λήφθηκε από τη πλατφόρμα του Kaggle,
αποτελείται από 452 καταγραφές και 280 χαρακτηριστικά όπου εξέτασαν αν το
δημιουργούμενο μοντέλο πρόβλεψης έχει την δυνατότητα να εντοπίσει έναν από τους
15 τύπους της αρρυθμίας. Τα αποτελέσματα ήταν καλά, με το καλύτερο μοντέλο
πρόβλεψης να επιτυγχάνει ένα ποσοστό ακρίβειας 87.07%
Έπειτα, διεξήχθη περαιτέρω μελέτη της ασθένειας μέσα από τον β2-αδρενεργικό
υποδοχέα, ο οποίος όταν ενεργοποιείται προκαλεί προβλήματα στο αναπνευστικό και
στο καρδιαγγειακό σύστημα. Στόχος της μελέτης αυτής ήταν η εύρεση ενώσεων που
λειτουργούν ως αγωνιστές για την απενεργοποίηση της δράσης του αδρενεργικού
υποδοχέα. Για την μελέτη του πραγματοποιήθηκαν αρχικά υπολογιστικά πειράματα με
την χρήση της στατιστικής ανάλυσης και της μηχανικής μάθησης έτσι ώστε να βρεθούν
οι πιο σημαντικοί δείκτες αλλά και η πρόβλεψη τους. Στην συνέχεια, αξιοποιήθηκε μια
υποκατηγορία της υπολογιστικής χημείας, τα πειράματα μοριακής πρόσδεσης, όπου με
την χρήση του αντιστοίχου υποδοχέα με κωδικό όνομα 2RH1, έγινε προσπάθεια να
βρεθούν προσδέτες μέσα από την βιβλιοθήκη φυσικών ενώσεων ZINC, που έχουν την
ιδιότητα με την πρόσδεσή τους να απενεργοποιούν την δράση του υποδοχέα. Τέλος
έγινε προσπάθεια συνδυασμού των αποτελεσμάτων από τα πρώτα δύο μέρη με σκοπό
να βρεθεί αν οι εν δυνάμει προσδέτες έχοντας συνδυαστεί με τους πιο σημαντικούς
δείκτες του υποδοχέα, λειτουργούν ως αγωνιστές και πως μπορούν να βρεθούν στην
φύση.
Το σύνολο δεδομένων που χρησιμοποιήθηκε περιείχε 1470 καταγραφές και 215
descriptors. Η χρήση της στατιστικής ανάλυσης έδειξε ότι 71 από τους 215 descriptors
παρουσίασαν στατιστικά σημαντική διαφορά. Μέσα από την προσέγγιση της
μηχανικής μάθησης, δημιουργήθηκε ένα μοντέλο πρόβλεψης το οποίο πέτυχε ποσοστό
ακρίβειας 93.45% με 7 από τους 71 πιο σημαντικούς descriptors να είναι οι κατάλληλοι
για περαιτέρω μελέτη. Ακόμη, στην διεξαγωγή των πειραμάτων μοριακής πρόσδεσης,
λήφθηκαν από την βάση δεδομένων ZINC 2000 πιθανές ενώσεις – προσδέτες, όπου
μόνο 10 από αυτές διερευνήθηκαν περαιτέρω με την χρήση του λογισμικού Maestro.
Τελικά, καταλήξαμε σε 2 πιθανούς προσδέτες που ανήκουν στην οικογένεια των
φλαβονοειδών και ανθρακινονών αντίστοιχα.