Εμφάνιση απλής εγγραφής

Παράλληλοι αλγόριθμοι κατηγοριοποίησης κειμένου σε κατανεμημένο περιβάλλον με χρήση Spark

dc.contributor.advisorMamalis, Basilis
dc.contributor.authorΠλάντζα, Παναγιώτα Δανάη
dc.date.accessioned2023-06-12T06:59:16Z
dc.date.available2023-06-12T06:59:16Z
dc.date.issued2022-07-21
dc.identifier.urihttps://polynoe.lib.uniwa.gr/xmlui/handle/11400/4476
dc.identifier.urihttp://dx.doi.org/10.26265/polynoe-4314
dc.description.abstractΗ παρούσα διπλωματική εργασία ασχολείται με την παράλλη κατηγοριοποίησης κειμένου σε κατανεμημένο περιβάλλον. Μελετήθηκε η εξαγωγή χαρακτηριστικών από κείμενο και η κατηγοριοποίηση του κειμένου βάση αυτών των χαρακτηριστικων. Η μελέτη επικεντρώθηκε στο σειριακός αλγόριθμος κατηγοριοποιησης SVΜ, και στους τρόπους παραλληλοποίησης του. Υλοποιήθηκαν 2 εκδόσεις παράλληλου SVM για κατηγοριοποίηση μεταξύ δύο και τριών κλάσεων. Η υλοποίηση των αλγορίθμων εγινε σε περιβάλλον spark. Συλλέχθηκαν Tweets σε μια βάση Cassandra μέσω της διεπαφής του Twitter για Spark. Στη συνέχεια εκπαιδεύτηκαν μοντέλα με τις διαφορετικές εκδόσεις του SVM βάση αυτών των δεδομένων και τέλος συγκρίθηκε η απόδοση των μοντέλων σε χρόνο και ακρίβεια.el
dc.format.extent68el
dc.language.isoelel
dc.publisherΠανεπιστήμιο Δυτικής Αττικήςel
dc.rightsΑναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές*
dc.rightsΑναφορά Δημιουργού - Παρόμοια Διανομή 4.0 Διεθνές*
dc.rightsΑναφορά Δημιουργού 4.0 Διεθνές*
dc.rightsΑναφορά Δημιουργού-Μη Εμπορική Χρήση 4.0 Διεθνές*
dc.rights.urihttp://creativecommons.org/licenses/by-nc/4.0/*
dc.subjectΠαράλληλη επεξεργασίαel
dc.subjectΠαράλληλος αλγόριθμοςel
dc.subjectΤαξινόμησηel
dc.subjectΚατηγοριοποίησηel
dc.subjectSvmel
dc.subjectSmoel
dc.subjectCassandrael
dc.subjectTweeterel
dc.titleΠαράλληλοι αλγόριθμοι κατηγοριοποίησης κειμένου σε κατανεμημένο περιβάλλον με χρήση Sparkel
dc.title.alternativeParallel text classification algorithms in distributed environments using Sparkel
dc.typeΜεταπτυχιακή διπλωματική εργασίαel
dc.contributor.committeePantziou, Grammati
dc.contributor.committeeKantzavelou, Ioanna
dc.contributor.facultyΣχολή Μηχανικώνel
dc.contributor.departmentΤμήμα Μηχανικών Πληροφορικής και Υπολογιστώνel
dc.contributor.masterΕπιστήμη και Τεχνολογία της Πληροφορικής και των Υπολογιστώνel
dc.description.abstracttranslatedThis thesis deals with the parallel classification of text in a distributed environment. It studies the extraction of features from text and the use of these features to classify the text. The study focuses on the serial SVM classification algorithm, and researches techniques to parallelize it. Two versions of parallel SVM were implemented for text classification between two and three classes. The algorithms were implemented with the use of Spark engine. To analyze the performance of implemented algorithms tweets were collected on a cassandra database via the Spark Twitter Streaming API. With this dataset we trained a model for each case with different versions of SVM. Finally the performance of the models was compared in time and accuracy on a diffrent datasetel


Αρχεία σε αυτό το τεκμήριο

Thumbnail

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές
Εκτός από όπου επισημαίνεται κάτι διαφορετικό, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές