Ανάπτυξη συστήματος ανάλυσης συναισθήματος με χρήση επεξεργασίας φυσικής γλώσσας
Development of a sentiment analysis system using Natural Language Processing (NLP)
Abstract
Η παρούσα διπλωματική εργασία ασχολείται με ανάπτυξη ενός συστήματος που αξιοποιεί της
τεχνικές της Επεξεργασίας Φυσικής Γλώσσας (NLP) για να επιτευχθεί συναισθηματική
ανάλυση σε δεδομένα κειμένου. Διερευνώνται οι προσεγγίσεις της συναισθηματικής
ανάλυσης, όπως αυτές της βασισμένης σε λεξικό και σε αλγορίθμους μηχανικής μάθησης.
Αναλύονται οι έννοιες της της Επεξεργασίας Φυσικής Γλώσσας και της συναισθηματικής
ανάλυσης, όπως επίσης η σημασία και οι χρήσεις τους στο χρονικό πλαίσιο που διανύουμε.
Επιπλέον, αναφέρονται οι κυριότερες μέθοδοι που χρησιμοποιούνται για την επίτευξη της
ανάλυσης συναισθήματος. Ακόμη, γίνεται επεξηγείται η μεθοδολογία που ακολουθήθηκε αλλά
και οι τεχνικές σχεδιασμού́του συστήματος. Παρουσιάζεται ο κώδικας και επεξηγείται, ώστε
να γίνει κατανοητή οι προσεγγίσεις που χρησιμοποιήθηκαν. Για την ανάλυση συναισθήματος
χρησιμοποιηθήκαν δύο προσεγγίσεις, η βασισμένη σε λεξικό που αξιοποίησε το VADER, ένα
module του NLTK, και η προσέγγιση μέσω μηχανικής μάθησης και συγκεκριμένα
επιβλεπόμενης, με τα μοντέλα του Naive Bayes, Supervised Vector Machine (SVM) και του
Decision Tree.
Τα στοιχεία στα οποία επικεντρώνεται η παρούσα διπλωματική εργασία είναι η κατανόηση
των τεχνολογιών που χρησιμοποιούνται, ο τρόπος με τον οποίο έχει δομηθεί η εφαρμογή και
η μεθοδολογία που ακολουθήθηκε. Τέλος, παρουσιάζεται η αξιολόγηση του συστήματος, τα
τελικά συμπεράσματα και ο πηγαίος κώδικας.
Abstract
This thesis deals with the development of a system that utilizes Natural Language Processing
Techniques (NLP) to achieve sentiment analysis in text data. Approaches to sentiment
analysis, such as those of dictionary-based and machine learning algorithms, are explored. The
concepts of natural language processing and sentiment analysis are analyzed, as well as their
importance and use in the current time frame. In addition, the main methods used to achieve
sentiment analysis are mentioned. The methodology followed and the design techniques of the
rectum are also explained. The code is presented and explained to understand the approaches
used. Two approaches, a dictionary based with VADER, an NLTK module, and the approach
to machine learning, and in particular supervised, with Naive Bayes, Supervised Vector
Machine (SVM), and Decision Tree models were used to analyze emotion.
The elements focused on in this thesis are the understanding of the technologies used, how
the application and the methodology followed have been structured. Finally, the system
evaluation, the final conclusions, and the source code are presented.