Show simple item record

Designing a scalable and reproducible machine learning workflow

dc.contributor.advisorNikolaou, Grigoris
dc.contributor.authorΠολυχρόνου, Ιωάννα
dc.date.accessioned2024-03-25T16:08:59Z
dc.date.available2024-03-25T16:08:59Z
dc.date.issued2024-03-06
dc.identifier.urihttps://polynoe.lib.uniwa.gr/xmlui/handle/11400/6154
dc.identifier.urihttp://dx.doi.org/10.26265/polynoe-5990
dc.description.abstractThe advancement of machine learning (ML) applications necessitates the construction of end-to-end experimentation pipelines characterized by scalability, robustness, and reproducibility. This thesis aims to empower Data Scientists and ML Εngineers, enabling seamless pipeline execution, free from unexpected obstacles such as downtime, hardware unavailability, OS conflicts, or dependency issues. To realize these objectives, an ideal ML workflow should exhibit robust execution in a highly available environment, revisitable reproducibility, minimal manual intervention through automation, easy extendability, and scalable capabilities to handle larger tasks concurrently. Moreover, facilitating these attributes, a comprehensive toolkit is essential, encompassing Containerization/Virtualization for consistent environment management, Monitoring experiments for provisioning necessary training information, Data/Model Tracking to trace model and data versions throughout the workflow, Scalable Object Storage for secure data and model storage, and a Workflow Engine for workflow automation, scheduling, and monitoring. This thesis explores the challenges inherent in designing scalable and reproducible ML workflows, detailing the utilization of the aforementioned toolkit to overcome these challenges. Furthermore, industrial case studies are presented to underscore the practical benefits of a scalable and reproducible ML workflow.el
dc.format.extent78el
dc.language.isoenel
dc.publisherΠανεπιστήμιο Δυτικής Αττικήςel
dc.rightsΑναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές*
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Διεθνές*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/*
dc.subjectArtificial intelligenceel
dc.subjectMachine learningel
dc.subjectMachine learning life cycleel
dc.subjectMachine learning operationsel
dc.subjectScalabilityel
dc.subjectReproducibilityel
dc.subjectΤεχνητή νοημοσύνηel
dc.subjectΜηχανική μάθησηel
dc.titleDesigning a scalable and reproducible machine learning workflowel
dc.title.alternativeΣχεδιασμός μιας επεκτάσιμης και αναπαραγώγιμης ροής εργασιών μηχανικής μάθησηςel
dc.typeΜεταπτυχιακή διπλωματική εργασίαel
dc.contributor.committeeFeidakis, Michalis
dc.contributor.committeePatrikakis, Charalampos
dc.contributor.facultyΣχολή Μηχανικώνel
dc.contributor.departmentΤμήμα Ηλεκτρολόγων και Ηλεκτρονικών Μηχανικώνel
dc.contributor.departmentΤμήμα Μηχανικών Βιομηχανικής Σχεδίασης και Παραγωγήςel
dc.contributor.masterΤεχνητή Νοημοσύνη και Βαθιά Μάθησηel
dc.description.abstracttranslatedΗ πρόοδος των εφαρμογών μηχανικής μάθησης (Machine Learning) απαιτεί την δημιουργία ολοκληρωμένων ροών εργασίας (pipelines) μηχανικής μάθησης για πειραματικούς σκοπούς. Οι ροές αυτές χαρακτηρίζονται από επεκτασιμότητα (scalability), σταθερότητα (robustness) και αναπαραγωγιμότητα (reproducibility). Αυτή η διπλωματική εργασία στοχεύει να ενισχύσει τους Επιστήμονες Δεδομένων και τους Μηχανικούς Μηχανικής Μάθησης, προσφέροντας πληροφορίες για την απρόσκοπτη εκτέλεση ροών εργασίας χωρίς απροσδόκητα εμπόδια όπως διακοπές λειτουργίας, μη διαθεσιμότητα υλικού, εξάρτηση υλοποίησης και λειτουργικού συστήματος. Για να επιτευχθούν αυτοί οι στόχοι, η ιδανική ροή εργασίας θα πρέπει να παρουσιάζει σταθερότητα και ομαλή εκτέλεση σε ένα εξαιρετικά διαθέσιμο περιβάλλον, επαναληψιμότητα, ελάχιστη χειροκίνητη παρέμβαση μέσω αυτοματισμού, εύκολη δυνατότητα επέκτασης για τη διαχείριση μεγαλύτερων εργασιών ταυτόχρονα. Για τη επίτευξη αυτών των χαρακτηριστικών, είναι απαραίτητη μια ολοκληρωμένη συλλογή εργαλείων, η οποία περιλαμβάνει Containerization/Virtualization για την συνεπή διαχείριση του περιβάλλοντος εκτέλεσης των εργασιών, παρακολούθηση πειραμάτων για την παροχή των απαραίτητων πληροφοριών, Data/Model Tracking για την παρακολούθηση των δεδομένων και τον μοντέλων μηχανικής μάθησης, Scalable Object Storage για ασφαλή αποθήκευση δεδομένων και μοντέλων και μια μηχανή ροής εργασίας για αυτοματισμό, προγραμματισμό και παρακολούθηση της ροής εργασιών. Αυτή η διατριβή διερευνά τις προκλήσεις που υπάρχουν στο σχεδιασμό επεκτάσιμων και αναπαραγώγιμων ροών εργασίας μηχανικής μάθησης, περιγράφοντας λεπτομερώς τη χρήση των προαναφερθέντων εργαλείων για την αντιμετώπιση αυτών των προκλήσεων. Επιπλέον, αναπτύσσεται μια πραγματική μελέτη όπου υλοποιούνται οι παραπάνω τεχνικές προκειμένου να υπογραμμιστούν τα πρακτικά οφέλη μιας επεκτάσιμης και αναπαραγώγιμης ροής εργασίας μηχανικής μάθησης.el


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές
Except where otherwise noted, this item's license is described as
Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές