Εμπλουτισμός της βιβλιοθήκης spaCy για ανάλυση συναισθήματος σε ελληνικά κείμενα
Enrichment of the SpaCy Python library for sentiment analysis of Greek texts.
Περίληψη
Όντας μάρτυρες των τρεχουσών εξελίξεων που πραγματοποιούνται με ταχύτατους ρυθμούς και παρακολουθώντας την ανεξέλικτη αύξηση των διαδικτυακών κοινοτήτων στον ψηφιακό κόσμο, καθίσταται επιτακτική η ανάγκη, θωράκισης αυτών με τρόπο αποτελεσματικό και ασφαλή. Συνεπώς, το πρόβλημα που καλούμαστε να μελετήσουμε και να αντιμετωπίσουμε είναι η ανάλυση συναισθήματος σε κείμενα που είναι γραμμένα στην ελληνική γλώσσα , ακριβώς γιατί οι ψηφιακοί ελληνικοί γλωσσικοί πόροι είναι πολύ λιγότεροι από τους αγγλικούς. Ο σκοπός της διπλωματικής εργασίας είναι ο εντοπισμός και ο προσδιορισμός της προσβλητικής γλώσσας (cyberbullying, ρητορική μίσους, επιθετικότητα) σε ελληνικά κείμενα. Πιο συγκεκριμένα, μελετήσαμε την βιβλιοθήκη επεξεργασίας φυσικής γλώσσας, spaCy (που είναι γραμμένη στη γλώσσα Python), ακριβώς λόγω των ελλείψεων της σε ό,τι αφορά την ελληνική γλώσσα, όπως το πεδίο αναγνώρισης ονοματισμένων οντοτήτων (NER – Named Entity Recognition) το όποιο δεν είναι ολοκληρωμένο σε σχέση με εκείνο της αγγλικής γλώσσας. Στη συνέχεια, διερευνήσαμε δύο μοντέλα μηχανικής μάθησης, το CNN και το LSTM (σε γλώσσα Python), χρησιμοποιώντας σαν οδηγό ένα συναισθηματικό λεξιλόγιο. Τέλος, για την εν λόγω μελέτη σχεδιάστηκε και αναπτύχθηκε μια βοηθητική διαδικτυακή εφαρμογή με στόχο την αναγνώριση του συναισθήματος σε ελληνικά κείμενα και τον εμπλουτισμού του πεδίου NER.
Περίληψη
Witnessing the current developments that are taking place at a rapid pace and watching the inexorable growth of online communities in the digital world, the need to shield them in an effective and secure manner becomes imperative. Therefore, the problem we are called to study and deal with is the analysis of sentiment in texts written in the Greek language, because the digital Greek language resources are much less than the English ones. The purpose of the thesis is to identify offensive language (cyberbullying, hate speech, aggression) in Greek texts. More specifically, we studied the natural language processing library, spaCy (which is written in the Python, due to its shortcomings regarding the Greek language, such as the field of Named Entity Recognition (NER – Named Entity Recognition) which it is not completed in relation to that of the English language. Next, we investigated two machine learning models, CNN and LSTM (in Python), using an emotional vocabulary as a guide. Finally, an auxiliary web application was designed and developed with the aim of recognizing emotion in Greek texts and enriching the field of NER.