Solving multiple sequence alignment using deep reinforcement learning

Κοτζιά, Ειρήνη

dc.contributor.advisor	Kasnesis, Panagiotis
dc.contributor.author	Κοτζιά, Ειρήνη
dc.date.accessioned	2024-03-10T20:05:21Z
dc.date.available	2024-03-10T20:05:21Z
dc.date.issued	2024-02-20
dc.identifier.uri	https://polynoe.lib.uniwa.gr/xmlui/handle/11400/6019
dc.identifier.uri	http://dx.doi.org/10.26265/polynoe-5855
dc.description.abstract	Multiple Sequence Alignment (MSA) is a fundamental task in Bioinformatics, essential for understanding evolutionary relationships, genetic adaptations, drug design, and other applications. In general, MSA is a Nondeterministic Polynomially complete problem with many heuristic solvers approaching over the years. Machine Learning (ML) can handle combinatorial optimization problems by learning models that generalize in various instances. Recent years have witnessed a surge of interest in applying Deep Reinforcement Learning (DRL) techniques for training agents to approach MSAs. In this work, we introduce IntellAlign, a novel methodology for aligning sequences using DRL for training and Natural Language Processing (NLP) approach. We build strong policies with only a few simulations, no previous knowledge, and self-play using the Gumbel AlphaZero algorithm. Our goal is maximizing a multi-objective reward based on well-known MSA quality metrics. We also propose attention-based networks for encoding MSAs. We contribute by achieving full flexibility of the sequence shape and by allowing the agent with a stop move to finish the alignment. We utilize the Glimpse-Pointer Network for pointing a series of positions sequentially to add a gap in the MSA. Finally, we utilize positional encodings for passing the sequence structural information to the network. Our algorithm is compared with three well-established aligners (Clustal Omega, MAFFT, and MUSCLE) on DNA MSAs. The results are promising, showing that IntellAlign outperforms MAFFT and MUSCLE tools. Moreover, it tends to score close to the Clustal Omega tool.	el
dc.format.extent	118	el
dc.language.iso	en	el
dc.publisher	Πανεπιστήμιο Δυτικής Αττικής	el
dc.rights	Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές	*
dc.rights	Attribution-NoDerivatives 4.0 Διεθνές	*
dc.rights.uri	http://creativecommons.org/licenses/by-nd/4.0/	*
dc.subject	Reinforcement learning	el
dc.subject	Multiple sequence alignment	el
dc.subject	Bioinformatics	el
dc.subject	Deep learning	el
dc.subject	Gumbel AlphaZero	el
dc.subject	Transformers	el
dc.subject	NLP	el
dc.subject	Ενισχυτική μάθηση	el
dc.subject	Βιοπληροφορική	el
dc.subject	Επεξεργασία φυσικής γλώσσας	el
dc.subject	Βαθιά μάθηση	el
dc.subject	Μετασχηματιστές	el
dc.subject	Ευθυγράμμιση πολλαπλών ακολουθιών	el
dc.title	Solving multiple sequence alignment using deep reinforcement learning	el
dc.title.alternative	Επίλυση ευθυγράμμισης πολλαπλών ακολουθιών χρησιμοποιώντας βαθιά ενισχυτική μάθηση	el
dc.type	Μεταπτυχιακή διπλωματική εργασία	el
dc.contributor.committee	Grimm, Dominik
dc.contributor.committee	Patrikakis, Charalampos
dc.contributor.faculty	Σχολή Μηχανικών	el
dc.contributor.department	Τμήμα Ηλεκτρολόγων και Ηλεκτρονικών Μηχανικών	el
dc.contributor.department	Τμήμα Μηχανικών Βιομηχανικής Σχεδίασης και Παραγωγής	el
dc.contributor.master	Τεχνητή Νοημοσύνη και Βαθιά Μάθηση	el
dc.description.abstracttranslated	Η Ευθυγράμμιση Πολλαπλών Ακολουθιών (MSA) είναι μια θεμελιώδης εργασία στον τομεα της Βιοπληροφορικής, απαραίτητη για την κατανόηση των εξελικτικών σχέσεων, των γενετικών προσαρμογών, του σχεδιασμού φαρμάκων και άλλων εφαρμογών. Παραδοσιακά, χρησιμοποιούνται ευρετικές μέθοδοι λόγω του ότι το (MSA) θεωρείται ένα πλήρες μη ντετερμινιστικό πρόβλημα πολυωνυμικού χρόνου (NP-complete), αλλά θα πρέπει να εισαχθούν πιο προηγμένες λύσεις για αυτό το πρόβλημα συνδυαστικής βελτιστοποίησης. Τα τελευταία χρόνια έχει παρατηρηθεί ένα κύμα ενδιαφέροντος για την εφαρμογή τεχνικών Βαθιάς Ενισχυτικής Μάθησης (DRL) για την εκπαίδευση μοντέλων (MSA). Σε αυτήν την εργασία, παρουσιάζουμε το IntellAlign, μια νέα μεθοδολογία για την ευθυγράμμιση ακολουθιών χρησιμοποιώντας τεχνικές Βαθιάς Ενισχυτικής Μάθησης (DRL) για την εκπαίδευση και προσεγγίζοντας το πρόβλημα με τεχνικές Επεξεργασίας Φυσικής Γλώσσας (NLP). Κατασκευάζουμε ισχυρές στρατηγικές με λίγες μόνο προσομοιώσεις, χωρίς προηγούμενη εμπειρία και αυτο-παιχνίδι χρησιμοποιώντας τον αλγόριθμο Gumbel AlphaZero. Στόχος μας είναι να μεγιστοποιήσουμε μια πολλαπλη-ανταμοιβή με βάση διαδεδομένες μετρικές ποιότητας MSA. Προτείνουμε επίσης δίκτυα που βασίζονται σε αρχιτεκτονική Attentionγια την κωδικοποίηση MSA. Συμβάλλουμε επιτυγχάνοντας πλήρη ευελιξία του μεγέθους τών ακολουθιών και επιτρέποντας στον πράκτορα με μια κίνηση να ολοκληρώσει την ευθυγράμμιση. Χρησιμοποιούμε το Δίκτυο Glimpse-Pointer προκειμένου να επιδείξουμε διαδοχικά μια σειρά από θέσεις στις οποίες ένα κενό θα προστεθεί στο MSA. Τελικά, χρησιμοποιούμε κωδικοποιήσεις θέσεων για τη μεταφορά των δομικών πληροφοριών των ακολουθιών στο δίκτυο Ο αλγόριθμός μας συγκρίνεται με καθιερωμένα εργαλεία ευθυγραμμιστών (Clustal Omega, MAFFT και MUSCLE) σε MSAsπου περιέχουν DNAακολουθίες. Τα αποτελέσματα είναι ενθαρρυντικά, δείχνοντας ότι ο IntellAlignμπορεί να ξεπεράσει στις περισσότερες περιπτώσεις το MAFFT και το MUSCLE . Επιπλέον, τείνει να επιτυγχάνει παρόμοια αποτελέσματα με το Clustal Omega.	el

Αρχεία σε αυτό το τεκμήριο

Όνομα:: MSA_191223-3 (signed)_.pdf
Μέγεθος:: 5.087Mb
Τύπος:: PDF

Προβολή/Άνοιγμα

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Μεταπτυχιακές διπλωματικές εργασίες - Τεχνητή Νοημοσύνη και Βαθιά Μάθηση
Μεταπτυχιακές διπλωματικές εργασίες ΠΜΣ Τεχνητή Νοημοσύνη και Βαθιά Μάθηση

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές

Εκτός από όπου επισημαίνεται κάτι διαφορετικό, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές