Αποκατάσταση υποβαθμισμένων εγγράφων με χρήση τεχνικών βαθιάς μάθησης
Restoration of degraded documents using deep learning techniques

Μεταπτυχιακή διπλωματική εργασία
Συγγραφέας
Ροδιτάκης, Μανώλης
Ημερομηνία
2025-03Επιβλέπων
Kesidis, AnastasiosΛέξεις-κλειδιά
Αποκατάσταση εγγράφων ; Vision transformers ; UNet ; Υποβαθμίσεις σε έγγραφαΠερίληψη
Η αποκατάσταση εγγράφων τα οποία έχουν πληγεί από διάφορες υποβαθμίσεις και φθορά αποτελεί έναν από τους στόχους εδώ και αρκετά χρόνια στο πεδίο της ανάλυσης και αναγνώρισης εγγράφων, γνωστό ως DIAR (Document Image Analysis and Recognition). Η διαδικασία της αποκατάστασης βοηθάει σημαντικά τόσο ερευνητές του πεδίου της ανάλυσης εικόνας εγγράφων για μεταγενέστερες επιμέρους εργασίες (downstream tasks), όπως και όσους ειδικεύονται στην όραση υπολογιστών. Στην παρούσα διπλωματική εργασία γίνεται προσπάθεια να αποκατασταθούν υποβαθμισμένα έγγραφα με χρήση τεχνικών βαθιάς μάθησης έτσι ώστε το τελικό αποτέλεσμα να προσεγγίζει την αρχική, “καθαρή” εκδοχή τους. Χρησιμοποιήθηκαν εικόνες από ιστορικά έγγραφα που χαρακτηρίζονται από μεγάλη ποικιλία αλλοιώσεων, υποβαθμίσεων και θορύβου, και αποτελούν σημαντικό υλικό για εφαρμογή τέτοιων τεχνικών. Εξετάστηκαν σύγχρονα δίκτυα βαθιάς μάθησης καθώς και συγκεκριμένες αρχιτεκτονικές τους που θα μπορούσαν να τα καταστήσουν κατάλληλα για ένα τέτοιο σκοπό. Διερευνήθηκε ο τρόπος και ο βαθμός που οι παράμετροι των δομικών τους χαρακτηριστικών επηρεάζουν την απόδοσή τους. Επίσης εξετάστηκαν διαφορετικοί τρόποι διαχείρισης των δεδομένων εισόδου, τεχνικές fine tuning καθώς και τεχνικές για την διαχείριση των αποτελεσμάτων εξόδου των δικτύων. Η προτεινόμενη προσέγγιση βασίζεται στην αρχιτεκτονική UCTransNet που αποτελεί μια υβριδική αρχιτεκτονική του συνελικτικού δικτύου UNet η οποία αντικαθιστά τις αρχικές skip connections κάθε επιπέδου του κωδικοποιητή-αποκωδικοποιητή με ένα Transformer module. Τα πειράματα που πραγματοποιήθηκαν ανέδειξαν χρήσιμες πληροφορίες για την σχέση του τρόπου διαχείρισης των δεδομένων και των τεχνικών εκπαίδευσης με την ακρίβεια των αποτελεσμάτων. Επιπλέον, καταδεικνύουν ότι η προτεινόμενη προσέγγιση επιτρέπει την αποκατάσταση των υποβαθμισμένων εγγράφων σε ανταγωνιστικό επίπεδο συγκριτικά με τις επικρατέστερες μεθόδους της σύγχρονης βιβλιογραφίας. Η μέθοδος εφαρμόστηκε σε ιστορικά έγγραφα από διαγωνισμούς binarization, όπως το DIBCO contests, και τα αποτελέσματα αξιολογήθηκαν ποιοτικά και ποσοτικά με τις καθιερωμένες μετρικές αποτίμησης.
Περίληψη
The restoration of documents that have been affected by various degradations and deterioration has been one of the goals for several years in the field of document image analysis and recognition, known as DIAR (Document Image Analysis and Recognition). The process of restoration greatly helps both researchers in the field of document image analysis for downstream tasks and those specializing in computer vision. In this thesis, an attempt is made to restore degraded documents using deep learning techniques so that the final result approximates the original, "clean" version of the documents. We used images from historical documents, characterized by a wide variety of distortions, degradations and noise, and constitute important material for the application of such techniques. We examined modern deep learning networks and their specific architectures that could make them suitable for such a purpose and we investigated the way and the extent to which the parameters of their structural characteristics affect their performance. We also examined different ways of managing input data, fine tuning techniques and techniques for managing the output of the networks. The proposed approach is based on the UCTransNet architecture which is a hybrid UNet architecture that replaces the original skip connections of encoder-decoder with a Transformer module. The experiments that were performed revealed useful information on the correlation between the way data are managed and the training techniques with the accuracy of results. Moreover, they demonstrate that the proposed approach allows the restoration of degraded documents at a competitive level compared to the prevailing methods in the current literature. The method was applied to historical documents from binarization contests, such as DIBCO contests, and the results were evaluated qualitatively and quantitatively using established evaluation metrics.