Διαχείριση μεγάλων δεδομένων από το Twitter και εξόρυξη δεδομένων
Big data management from Twitter and data mining
Keywords
Apache Hadoop ; HDFS ; YARN ; MapReduce ; Kafka ; Twitter ; Clustering ; Classification ; Streaming dataAbstract
Η παρούσα διπλωματική εξετάζει την ενσωμάτωση του ισχυρού οικοσυστήματος του Hadoop
με την επεξεργασία δεδομένων από το Twitter σε πραγματικό χρόνο, που στη συνέχεια διαχειρίζονται
από το πρότυπο του MapReduce. Ο πρωταρχικός στόχος αυτής της έρευνας είναι να εντοπίσει
σημαντικές πληροφορίες που κρύβονται μέσα σε μεγάλες και διαρκώς μεταβαλλόμενες πηγές
δεδομένων. Στο δεύτερο κεφάλαιο παραθέτονται τα προβλήματα των Μεγάλων Δεδομένων (Big
Data), τονίζοντας τους κρίσιμους ρόλους του HDFS και του YARN. Η μελέτη επικεντρώνεται στη
δυναμική φύση των δεδομένων του Twitter, με ιδιαίτερη έμφαση στον στρατηγικό ρόλο του Kafka
στον συντονισμό των δεδομένων. Εντός αυτού του πλαισίου, το τρίτο κεφάλαιο τονίζει τη θεμελιώδη
σημασία του MapReduce, το οποίο έχει επαινεθεί για τις εξαιρετικές του ικανότητες στην υποστήριξη
της παράλληλης επεξεργασίας. Επίσης, η έρευνα διευρύνει το πεδίο της ανάλυσης δεδομένων
εξερευνώντας πολύπλοκους αλγορίθμους ομαδοποίησης (clustering) και ταξινόμησης (classification),
οι οποίοι είναι κρίσιμα εργαλεία για τη συλλογή ωφέλιμων δεδομένων από τον καταιγισμό των
πληροφοριών και δεδομένων. Τα επόμενα κεφάλαια εξετάζουν την πραγματική υλοποίηση της
μελέτης. Στο τέταρτο και πέμπτο Κεφάλαιο, αποκαλύπτεται το αρχιτεκτονικό σχέδιο, παρέχοντας την
απαραίτητη ανάλυση πάνω στο σχεδιασμό. Στο Κεφάλαιο έκτο, αναλύονται προσεκτικά τα δεδομένα
του Twitter και τα αποτελέσματα που έχουν εξαχθεί. Το τελευταίο και έβδομο κεφάλαιο ασχολού-
μαστε με την πρακτική εφαρμογή, διευρύνοντας το πεδίο για την καθιέρωση ενός συστήματος
ολοκληρωμένης αξιολόγησης.
Abstract
This thesis investigates the seamless integration of Hadoop's strong ecosystem with real-time
Twitter data processing, all managed by the powerful MapReduce paradigm. The primary goal of this
research is to find significant insights hidden inside huge and ever-changing data sources. The second
chapter sets the scene against the backdrop of Big Data issues, stressing the critical roles of HDFS and
YARN. The study focuses on the dynamic nature of Twitter data, with a special emphasis on Kafka's
strategic role in data management orchestration. Within this dynamic area, Chapter three emphasizes
the fundamental importance of MapReduce, which has been praised for its exceptional powers in
aiding parallel processing. The research broadens its reach by delving into complex clustering and
classification algorithms, which are critical tools for collecting actionable insight from the vast sea of
data. The next chapters dive into the study's actual implementation. In Chapters four and five, the
architectural blueprint is unveiled, providing insight into the complex design. In Chapter six, we
carefully analyze the intricate Twitter data and share the achieved results. Chapter seven transitions to
practical investigation, expanding the scope to establish a thorough evaluation system.