Ανάλυση μεθόδων εξόρυξης μαζικών δεδομένων (big data) από κείμενα και εικόνες
Analysis of big data extraction methods from texts and images
Μεταπτυχιακή διπλωματική εργασία
Συγγραφέας
Ματσάγγος, Βασίλειος - Νικόλαος
Ημερομηνία
2021-10-08Επιβλέπων
Mamalis, BasilisΛέξεις-κλειδιά
Εξόρυξη δεδομένων ; Mαζικά δεδομένα ; Kατανεμημένα συστήματα ; Παράλληλοι αλγόριθμοι ; Mapreduce ; Ομαδοποίηση δεδομένων ; Δομημένα δεδομένα ; Αδόμητα δεδομένα ; Κείμενο ; ΕικόνεςΠερίληψη
Η παρούσα πτυχιακή εργασία αφορά τη διερεύνηση, μαθηματική και αλγοριθμική
ανάλυση των μεθόδων εξόρυξης δομημένων δεδομένων από αδόμητα μαζικά
δεδομένα (big data), και τη μελέτη των τρόπων επεξεργασίας και ομαδοποίησης
αυτών. Θα γίνει μελέτη των περιγραφικών χαρακτηριστικών που ορίζουν τα
δομημένα, αδόμητα, μαζικά δεδομένα εν γένει, και θα δοθεί έμφαση σε αυτά που
εμφανίζονται με τις μορφές των κειμένων και των εικόνων. Θα παρουσιαστούν και θα
αναλυθούν τα στάδια εξόρυξης των δεδομένων (εν γένει και κατά περίπτωση) οι
αλγόριθμοι που χρησιμοποιούνται σε κάθε στάδιο, καθώς και η υλοποίηση των
παραπάνω σε περιβάλλον κατανεμημένων (παράλληλων) συστημάτων. Σκοπός της
παρούσας εργασίας είναι η βιβλιογραφική και μαθηματική διερεύνηση των
παραπάνω τεχνολογιών (κατανεμημένα συστήματα, αλγόριθμοι εξόρυξης
δεδομένων) , καθώς και η επιλογή των βέλτιστων συνδυασμών αυτών βάσει των
αποδόσεων τους.
Περίληψη
The present thesis concerns the exploration, mathematical and algorithmic
analysis of the mining, processing and clustering methods of structured data from
unstructured big data. The descriptive features that define structured, unstructured,
big data in general will be studied, with emphasis on those in the form of text and
images. The stages of data mining (in general and on a case-by-case basis), the
algorithms used in each stage, as well as the implementation of the aforementioned
in the environment of distributed (parallel) systems will be presented and analyzed.
The purpose of this thesis is the bibliographic and mathematical investigation of the
above technologies (distributed systems, data mining algorithms), as well as the
choice of the optimal combinations based on their performance.