Εμφάνιση απλής εγγραφής

Solving multiple sequence alignment using deep reinforcement learning

dc.contributor.advisorKasnesis, Panagiotis
dc.contributor.authorΚοτζιά, Ειρήνη
dc.date.accessioned2024-03-10T20:05:21Z
dc.date.available2024-03-10T20:05:21Z
dc.date.issued2024-02-20
dc.identifier.urihttps://polynoe.lib.uniwa.gr/xmlui/handle/11400/6019
dc.identifier.urihttp://dx.doi.org/10.26265/polynoe-5855
dc.description.abstractMultiple Sequence Alignment (MSA) is a fundamental task in Bioinformatics, essential for understanding evolutionary relationships, genetic adaptations, drug design, and other applications. In general, MSA is a Nondeterministic Polynomially complete problem with many heuristic solvers approaching over the years. Machine Learning (ML) can handle combinatorial optimization problems by learning models that generalize in various instances. Recent years have witnessed a surge of interest in applying Deep Reinforcement Learning (DRL) techniques for training agents to approach MSAs. In this work, we introduce IntellAlign, a novel methodology for aligning sequences using DRL for training and Natural Language Processing (NLP) approach. We build strong policies with only a few simulations, no previous knowledge, and self-play using the Gumbel AlphaZero algorithm. Our goal is maximizing a multi-objective reward based on well-known MSA quality metrics. We also propose attention-based networks for encoding MSAs. We contribute by achieving full flexibility of the sequence shape and by allowing the agent with a stop move to finish the alignment. We utilize the Glimpse-Pointer Network for pointing a series of positions sequentially to add a gap in the MSA. Finally, we utilize positional encodings for passing the sequence structural information to the network. Our algorithm is compared with three well-established aligners (Clustal Omega, MAFFT, and MUSCLE) on DNA MSAs. The results are promising, showing that IntellAlign outperforms MAFFT and MUSCLE tools. Moreover, it tends to score close to the Clustal Omega tool.el
dc.format.extent118el
dc.language.isoenel
dc.publisherΠανεπιστήμιο Δυτικής Αττικήςel
dc.rightsΑναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές*
dc.rightsAttribution-NoDerivatives 4.0 Διεθνές*
dc.rights.urihttp://creativecommons.org/licenses/by-nd/4.0/*
dc.subjectReinforcement learningel
dc.subjectMultiple sequence alignmentel
dc.subjectBioinformaticsel
dc.subjectDeep learningel
dc.subjectGumbel AlphaZeroel
dc.subjectTransformersel
dc.subjectNLPel
dc.subjectΕνισχυτική μάθησηel
dc.subjectΒιοπληροφορικήel
dc.subjectΕπεξεργασία φυσικής γλώσσαςel
dc.subjectΒαθιά μάθησηel
dc.subjectΜετασχηματιστέςel
dc.subjectΕυθυγράμμιση πολλαπλών ακολουθιώνel
dc.titleSolving multiple sequence alignment using deep reinforcement learningel
dc.title.alternativeΕπίλυση ευθυγράμμισης πολλαπλών ακολουθιών χρησιμοποιώντας βαθιά ενισχυτική μάθησηel
dc.typeΜεταπτυχιακή διπλωματική εργασίαel
dc.contributor.committeeGrimm, Dominik
dc.contributor.committeePatrikakis, Charalampos
dc.contributor.facultyΣχολή Μηχανικώνel
dc.contributor.departmentΤμήμα Ηλεκτρολόγων και Ηλεκτρονικών Μηχανικώνel
dc.contributor.departmentΤμήμα Μηχανικών Βιομηχανικής Σχεδίασης και Παραγωγήςel
dc.contributor.masterΤεχνητή Νοημοσύνη και Βαθιά Μάθησηel
dc.description.abstracttranslatedΗ Ευθυγράμμιση Πολλαπλών Ακολουθιών (MSA) είναι μια θεμελιώδης εργασία στον τομεα της Βιοπληροφορικής, απαραίτητη για την κατανόηση των εξελικτικών σχέσεων, των γενετικών προσαρμογών, του σχεδιασμού φαρμάκων και άλλων εφαρμογών. Παραδοσιακά, χρησιμοποιούνται ευρετικές μέθοδοι λόγω του ότι το (MSA) θεωρείται ένα πλήρες μη ντετερμινιστικό πρόβλημα πολυωνυμικού χρόνου (NP-complete), αλλά θα πρέπει να εισαχθούν πιο προηγμένες λύσεις για αυτό το πρόβλημα συνδυαστικής βελτιστοποίησης. Τα τελευταία χρόνια έχει παρατηρηθεί ένα κύμα ενδιαφέροντος για την εφαρμογή τεχνικών Βαθιάς Ενισχυτικής Μάθησης (DRL) για την εκπαίδευση μοντέλων (MSA). Σε αυτήν την εργασία, παρουσιάζουμε το IntellAlign, μια νέα μεθοδολογία για την ευθυγράμμιση ακολουθιών χρησιμοποιώντας τεχνικές Βαθιάς Ενισχυτικής Μάθησης (DRL) για την εκπαίδευση και προσεγγίζοντας το πρόβλημα με τεχνικές Επεξεργασίας Φυσικής Γλώσσας (NLP). Κατασκευάζουμε ισχυρές στρατηγικές με λίγες μόνο προσομοιώσεις, χωρίς προηγούμενη εμπειρία και αυτο-παιχνίδι χρησιμοποιώντας τον αλγόριθμο Gumbel AlphaZero. Στόχος μας είναι να μεγιστοποιήσουμε μια πολλαπλη-ανταμοιβή με βάση διαδεδομένες μετρικές ποιότητας MSA. Προτείνουμε επίσης δίκτυα που βασίζονται σε αρχιτεκτονική Attentionγια την κωδικοποίηση MSA. Συμβάλλουμε επιτυγχάνοντας πλήρη ευελιξία του μεγέθους τών ακολουθιών και επιτρέποντας στον πράκτορα με μια κίνηση να ολοκληρώσει την ευθυγράμμιση. Χρησιμοποιούμε το Δίκτυο Glimpse-Pointer προκειμένου να επιδείξουμε διαδοχικά μια σειρά από θέσεις στις οποίες ένα κενό θα προστεθεί στο MSA. Τελικά, χρησιμοποιούμε κωδικοποιήσεις θέσεων για τη μεταφορά των δομικών πληροφοριών των ακολουθιών στο δίκτυο Ο αλγόριθμός μας συγκρίνεται με καθιερωμένα εργαλεία ευθυγραμμιστών (Clustal Omega, MAFFT και MUSCLE) σε MSAsπου περιέχουν DNAακολουθίες. Τα αποτελέσματα είναι ενθαρρυντικά, δείχνοντας ότι ο IntellAlignμπορεί να ξεπεράσει στις περισσότερες περιπτώσεις το MAFFT και το MUSCLE . Επιπλέον, τείνει να επιτυγχάνει παρόμοια αποτελέσματα με το Clustal Omega.el


Αρχεία σε αυτό το τεκμήριο

Thumbnail

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές
Εκτός από όπου επισημαίνεται κάτι διαφορετικό, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές