Usage of machine learning and computational chemistry methodologies to predict the activity of potential antiviral compounds against the Zika virus protease
Χρήση μεθοδολογιών μηχανικής μάθησης και υπολογιστικής χημείας για την πρόβλεψη της δραστικότητας πιθανών αντιικών ενώσεων κατά της πρωτεάσης του ιού Ζίκα.
Keywords
Zika virus ; Machine learning ; Compounds ; Statistical analysis ; Molecular dockingAbstract
Zika virus is an arbovirus, it is transmitted through blood-feeding arthropods and can
cause symptoms ranging from fever and malaise to more severe neurological and
immunological complications. Despite the extensive research, there are no approved
vaccines or antiviral drugs from health organizations for this infection. Its genome is a
single-stranded ribonucleic acid. It encodes a polyprotein that is cleaved by proteases,
with the NS2B-NS3 complex being the most crucial for viral replication. The aim of
this study is to predict potential antiviral compounds that inhibit this protease using an
integrative approach involving statistical analysis, machine learning and
computational chemistry techniques. A compound database from ChEMBL was
analyzed to identify the most significant features. The Wilcoxon rank-sum test
revealed that eight of these features showed statistically significant differences.
Subsequently, a machine learning model, developed using the exhaustive search
method with a Random Forest classifier, identified the optimal combination of seven
features, achieving an accuracy of 95.46%. In computational chemistry, initially, the
appropriate crystal structure of the virus protease complex was selected, along with
the compounds to be tested for their inhibitory potential. Molecular docking
experiments were then conducted using Webina and Maestro. Five compounds in the
end emerged as promising candidates, and all were classified as active with a
probability of 70%. These findings highlight the effective integration of these
approaches in identifying compounds that could potentially inhibit the Zika virus
protease, providing valuable insights for future experimental validation.
Abstract
Ο ιός Ζίκα είναι ένας αρβοϊός, μεταδίδεται μέσω αιματοφάγων αρθροπόδων και
μπορεί να προκαλέσει συμπτώματα που κυμαίνονται από πυρετό και αίσθημα
κόπωσης έως σοβαρότερες νευρολογικές και ανοσολογικές επιπλοκές. Παρά την
εκτεταμένη έρευνα, δεν υπάρχουν εγκεκριμένα εμβόλια ή αντιϊικά φάρμακα από
διεθνείς οργανισμούς υγείας για αυτή τη λοίμωξη. Το γονιδίωμά του ιού είναι ένα
μονόκλωνο ριβοζονουκλεϊνικό οξύ. Κωδικοποιεί μία πολυπρωτεΐνη, η οποία
διασπάται από πρωτεάσες, με το σύμπλεγμα NS2B-NS3 να είναι το πιο κρίσιμο για
τον πολλαπλασιασμό του ιού. Στόχος της παρούσας μελέτης είναι η πρόβλεψη
πιθανών αντιϊικών ενώσεων που αναστέλλουν αυτή την πρωτεάση, χρησιμοποιώντας
μια πολύπλευρη προσέγγιση που περιλαμβάνει στατιστική ανάλυση, μηχανική
μάθηση και τεχνικές υπολογιστικής χημείας. Μια βάση δεδομένων με ενώσεις που
προήλθαν από το ChEMBL αναλύθηκε για την αναγνώριση των σημαντικότερων
χαρακτηριστικών. Το τεστ κατάταξης Wilcoxon αποκάλυψε ότι οκτώ από αυτά τα
χαρακτηριστικά παρουσίασαν στατιστικά σημαντικές διαφορές. Στη συνέχεια, ένα
μοντέλο μηχανικής μάθησης, που αναπτύχθηκε χρησιμοποιώντας τη μέθοδο
εξαντλητικής αναζήτησης με ταξινομητή το Random Forest, εντόπισε τον βέλτιστο
συνδυασμό επτά χαρακτηριστικών, επιτυγχάνοντας ακρίβεια 95,46%. Στην
υπολογιστική χημεία, επιλέχθηκε η κατάλληλη κρυσταλλική δομή της πρωτεάσης του
ιού, καθώς και οι ενώσεις που θα δοκιμαστούν για την ανασταλτική τους δράση. Στη
συνέχεια, πραγματοποιήθηκαν πειράματα μοριακής πρόσδεσης χρησιμοποιώντας το
Webina και το Maestro. Στο τέλος, πέντε ενώσεις αναδείχθηκαν ως πιθανοί
προσδέτες και όλες ταξινομήθηκαν ως ενεργές με πιθανότητα 70%. Αυτά τα
ευρήματα αναδεικνύουν την αποτελεσματική ενσωμάτωση αυτών των προσεγγίσεων
στον εντοπισμό ενώσεων που θα μπορούσαν δυνητικά να αναστείλουν την πρωτεάση
του ιού Ζίκα, παρέχοντας πολύτιμες πληροφορίες για μελλοντική πειραματική
επικύρωση.