Αυτόματη κατάταξη ειδησεογραφικών άρθρων και αναγνώριση οντοτήτων με χρήση τεχνικών επεξεργασίας φυσικής γλώσσας (NLP) και μηχανικής μάθησης
Automatic categorization of news articles and entity recognition with the usage of natural language processing (NLP) and machine learning

Λέξεις-κλειδιά
Word embeddings ; Μηχανική μάθηση ; Βαθιά μάθηση ; Επεξεργασία φυσικής γλώσσας ; Ανάπτυξη συνόλου δεδομένων ; Αναγνώριση οντοτήτων ; Κατηγοριοποίηση κειμένων ; Βελτιστοποίηση μοντέλων βαθιάς μάθησης ; Αξιολόγηση μοντέλων βαθιάς μάθησης ; Εκπαίδευση μοντέλων βαθιάς μάθησης ; Συλλογή δεδομένων ; Επεξεργασία δεδομένων ; Τύποι και κατηγορίες μηχανικής μάθησης ; Fine-tuning μοντέλων βαθιάς μάθησηςΠερίληψη
Η ραγδαία ανάπτυξη της επιστήμης των υπολογιστών τις τελευταίες δεκαετίες, ιδίως στον τομέα της τεχνητής νοημοσύνης, έχει επιφέρει σημαντικές αλλαγές σε πολλά επιστημονικά πεδία. Η επεξεργασία φυσικής γλώσσας (Natural Language Processing - NLP), είναι ο κλάδος της τεχνητής νοημοσύνης που επιτρέπει στις μηχανές να αναλύουν, να κατανοούν και να ερμηνεύουν την ανθρώπινη γλώσσα. Παρότι η αγγλική γλώσσα υποστηρίζεται από εκτενείς πόρους και εξελιγμένα εργαλεία NLP, η ελληνική γλώσσα παρουσιάζει σημαντικά κενά, γεγονός που την καθιστά ως ένα ενδιαφέρον αντικείμενο μελέτης. Οι εφαρμογές της επεξεργασίας φυσικής γλώσσας είναι ιδιαίτερα ποικίλες, καθώς περιλαμβάνουν τη κατηγοριοποίηση κειμένων, την αναγνώριση οντοτήτων, τα συστήματα συστάσεων, τα διαλογικά ρομπότ, την ανάλυση συναισθήματος και την αυτόματη μετάφραση. Η παρούσα διπλωματική εργασία εστιάζει στην ανάπτυξη και την αξιολόγηση μοντέλων βαθιάς μάθησης για δύο θεμελιώδεις εργασίες της επεξεργασία φυσικής γλώσσας, την αναγνώριση οντοτήτων (Named Entity Recognition - NER) και την κατηγοριοποίηση (Classification) ελληνικών ειδησεογραφικών άρθρων. Αρχικά, δημιουργήθηκε ένα περιεκτικό σύνολο δεδομένων από δημοσιευμένα άρθρα ειδησεογραφικών ισοτόπων, το οποίο εμπλουτίστηκε με ετικέτες οντοτήτων και θεματικές κατηγορίες. Έπειτα ακολούθησε μια ενδελεχής διαδικασία επεξεργασίας κειμένων με σκοπό τη βελτιστοποίηση της ποιότητας των δεδομένων πριν την εφαρμογή τεχνικών μηχανικής μάθησης. Στο επόμενο στάδιο, αναπτύχθηκαν και αξιολογήθηκαν τρία μοντέλα βαθιάς μάθησης αξιοποιώντας την προσέγγιση της κοινής μάθησης (joint learning), με κύριο στόχο τη διατήρηση υψηλής απόδοσης σε συνδυασμό με ελαφριά αρχιτεκτονική. Αρχικά, δοκιμάστηκε μια προσέγγιση διαμοιραζόμενων εργασιών (shared tasks) όπου η αναγνώριση οντοτήτων και η ταξινόμηση μοιράζονταν τόσο το στρώμα ενσωματώσεων όσο και το κεντρικό νευρωνικό στρώμα, προσφέροντας εξοικονόμηση πόρων και καλά αποτελέσματα στην ταξινόμηση, αλλά παρουσιάζοντας μείωση στην ακρίβεια της αναγνώρισης οντοτήτων. Στη συνέχεια, εξετάστηκε η λύση των δύο ανεξάρτητων εργασιών (individual tasks), η οποία βελτίωσε σημαντικά την αναγνώριση οντοτήτων, αυξάνοντας όμως το μέγεθος και τον χρόνο εκπαίδευσης. Η πιο ισορροπημένη επιλογή τελικά προέκυψε από μια υβριδική αρχιτεκτονική, όπου διατηρείται ένα κοινό στρώμα ενσωματώσεων, ενώ τα επόμενα επίπεδα επεξεργασίας διαχωρίζονται για κάθε εργασία ξεχωριστά. Αυτή η προσέγγιση επέτυχε υψηλές επιδόσεις στις δύο εργασίες, χωρίς να αυξάνει το υπολογιστικό κόστος.
Περίληψη
The rapid development of computer science in recent decades, particularly in the field of artificial intelligence, has resulted in significant changes in many scientific fields. Natural Language Processing (NLP) is the branch of artificial intelligence that allows machines to analyze, understand and interpret human language. Although the English language is supported by extensive resources and sophisticated NLP tools, the Greek language has significant gaps, making it an interesting object of study. The applications of natural language processing are highly diverse, as they include text categorization, entity recognition, recommendation systems, conversational robots, sentiment analysis and machine translation. This thesis focuses on the development and evaluation of deep learning models for two fundamental tasks of natural language processing, Named Entity Recognition (NER) and Classification of Greek news articles. Initially, a comprehensive dataset of published news articles websites was created, which was enriched with entity labels and thematic categories. A thorough text processing procedure was then followed in order to optimize the quality of the data before applying machine learning techniques. In the next stage, three deep learning models were developed and evaluated utilizing the joint learning approach, with the main goal of maintaining high performance combined with lightweight architecture. Initially, a shared tasks approach was tested where entity recognition and classification shared both the embedding layer and the central neural layer, offering resource savings and good classification results, but showing a decrease in the accuracy of entity recognition. Next, the solution of two independent tasks (individual tasks) was considered, which significantly improved entity recognition, but increased the size and training time. The most balanced option finally resulted from a hybrid architecture, where a common embedding layer is maintained, while the subsequent processing layers are separated for each task separately. This approach achieved high performance on both tasks without increasing the computational cost.
Αριθμός σελίδων
120Σχολή
Σχολή ΜηχανικώνΑκαδημαϊκό Τμήμα
Τμήμα Μηχανικών Πληροφορικής και ΥπολογιστώνΓλώσσα
ΕλληνικάΣυλλογή
Εκτός από όπου επισημαίνεται κάτι διαφορετικό, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές
Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές
Σχετικές εγγραφές
Προβολή εγγραφών σχετικών με τίτλο, συγγραφέα, δημιουργό και λέξεις-κλειδιά.
-
Η επίδραση του μοντέλου της μάθησης μέσω της επίλυσης προβλήματος, στα κίνητρα, στις στρατηγικές μάθησης και στην εμπλοκή των φοιτητών κατά την περίοδο της πανδημίας του Covid-19. Μελέτη περίπτωσης στο MS Teams
Μπούρδας, Κωνσταντίνος (Πανεπιστήμιο Δυτικής Αττικής, 2021-09)Η έλευση της εποχής του Covid-19 (Covid-19 era) προκάλεσε αρνητικές επιδράσεις σε διάφορους τομείς της ανθρώπινης δραστηριότητας, συμπεριλαμβανομένου και του τομέα της ακαδημαϊκής εκπαίδευσης. Ωστόσο, αποτέλεσε και μία ... -
Από τον Τεϊλορισμό (Taylorism) στον οργανισμό μάθησης: μια διαχρονική θεώρηση της οργανωσιακής μάθησης
Αλεξίου, Θωμάς (Πανεπιστήμιο Δυτικής Αττικής, 2022-09-23)Η παρούσα εργασία μελετά την εξέλιξη της οργανωσιακής μάθησης και της εξέλιξης των οργανισμών μάθησης. Μέσα από την κατανόηση των οργανισμών μάθησης ως ενός οργανισμού, θα καταστεί ευκολότερη η κατανόηση του τρόπου με τον ... -
Προσεγγίσεις Μάθησης στο μάθημα «Αρχές Οικονομικής Θεωρίας» και χαρακτηριστικά Διά βίου μάθησης των μαθητών της Γ’ Λυκείου
Παντζούρη, Ελένη (Πανεπιστήμιο Δυτικής ΑττικήςΑνώτατη Σχολή Παιδαγωγικής και Τεχνολογικής Εκπαίδευσης (Α.Σ.ΠΑΙ.Τ.Ε.), 2022-07-15)Εισαγωγή: Σε έναν σύγχρονο περιβάλλον, που αλλάζει συνεχώς και εξελίσσεται με ραγδαίους ρυθμούς, τα εκπαιδευτικά συστήματα οφείλουν να στρέψουν την προσοχή τους στη διαμόρφωση μελλοντικών πολιτών, ικανών να προσαρμόζονται ...