Παράλληλοι αλγόριθμοι κατηγοριοποίησης κειμένου σε κατανεμημένο περιβάλλον με χρήση Spark
Parallel text classification algorithms in distributed environments using Spark
Μεταπτυχιακή διπλωματική εργασία
Author
Πλάντζα, Παναγιώτα Δανάη
Date
2022-07-21Advisor
Mamalis, BasilisKeywords
Παράλληλη επεξεργασία ; Παράλληλος αλγόριθμος ; Ταξινόμηση ; Κατηγοριοποίηση ; Svm ; Smo ; Cassandra ; TweeterAbstract
Η παρούσα διπλωματική εργασία ασχολείται με την παράλλη κατηγοριοποίησης
κειμένου σε κατανεμημένο περιβάλλον. Μελετήθηκε η εξαγωγή χαρακτηριστικών από
κείμενο και η κατηγοριοποίηση του κειμένου βάση αυτών των χαρακτηριστικων. Η
μελέτη επικεντρώθηκε στο σειριακός αλγόριθμος κατηγοριοποιησης SVΜ, και στους
τρόπους παραλληλοποίησης του. Υλοποιήθηκαν 2 εκδόσεις παράλληλου SVM για
κατηγοριοποίηση μεταξύ δύο και τριών κλάσεων. Η υλοποίηση των αλγορίθμων εγινε
σε περιβάλλον spark. Συλλέχθηκαν Tweets σε μια βάση Cassandra μέσω της
διεπαφής του Twitter για Spark. Στη συνέχεια εκπαιδεύτηκαν μοντέλα με τις
διαφορετικές εκδόσεις του SVM βάση αυτών των δεδομένων και τέλος συγκρίθηκε η
απόδοση των μοντέλων σε χρόνο και ακρίβεια.
Abstract
This thesis deals with the parallel classification of text in a distributed environment.
It studies the extraction of features from text and the use of these features to classify
the text. The study focuses on the serial SVM classification algorithm, and researches
techniques to parallelize it. Two versions of parallel SVM were implemented for text
classification between two and three classes. The algorithms were implemented with
the use of Spark engine. To analyze the performance of implemented algorithms
tweets were collected on a cassandra database via the Spark Twitter Streaming API.
With this dataset we trained a model for each case with different versions of SVM.
Finally the performance of the models was compared in time and accuracy on a
diffrent dataset