Αυτοματοποιημένη θεματική κατηγοριοποίηση του ενεργού αρχείου του ΠΑΔΑ
Automated thematic categorization of UNIWA records
Μεταπτυχιακή διπλωματική εργασία
Author
Βαλλιάνος, Βασίλειος
Date
2023-11-07Advisor
Triantafyllou, IoannisKeywords
Μηχανική μάθηση ; Βαθιά μηχανική μάθηση ; Επεξεργασία φυσικής γλώσσας ; Κατηγοριοποίηση κειμένων ; Devmax.DFAbstract
Η εργασία αφορά στη διερεύνηση της εφαρμογής της ταξινόμησης των εγγράφων του Πανεπιστημίου Δυτικής Αττικής που σχετίζονται με το σύνολο των δραστηριοτήτων του. Για την δημιουργία των απαιτούμενων Datasets θα αντληθούν δεδομένα από το σύνολο των εγγράφων που έχουν αναρτηθεί από το Πανεπιστήμιο στην υπηρεσία της «Διαύγειας». Θα διερευνηθούν τα χαρακτηριστικά των αλγορίθμων και τεχνικών που χρησιμοποιούνται για την επεξεργασία φυσικής γλώσσας και την εξαγωγή σημαντικών χαρακτηριστικών καθώς και μέθοδοι ταξινόμησης μηχανικής και βαθιάς μάθησης, κάνοντας χρήση της γλώσσας προγραμματισμού Python και διαφόρων βιβλιοθηκών της, έτσι ώστε να προκύψει ένα εργαλείο αυτοματοποιημένης κατηγοριοποίησης των εγγράφων του Πανεπιστημίου.
Abstract
This dissertation is about the research of the application of the classification of all the documents relating to the activities of the University of Western Attica. To create the required Dataset, data will be extracted from all the documents that have been uploaded by the University on the "Diavgeia" portal. Features of algorithms and techniques used for natural language processing and feature extraction, as well as, machine learning and deep learning classification methods will be explored, making use of the Python programming language and its various libraries, so that an automated classification/categorization tool of the University's documents is created.