Διαχείριση Δεδομένων στις πλατφόρμες ΚΝΙΜE & WEKA
Μεταπτυχιακή διπλωματική εργασία
Συγγραφέας
Κωτσάκη, Παναγιώτα
Ημερομηνία
2020-06-11Επιβλέπων
Triantafyllou, IoannisΛέξεις-κλειδιά
Weka ; Knime ; Εξόρυξη δεδομένων ; Παλινδρόμηση ; Knn ; Svm ; Linear Regression ; Random Forest ; Decision TreeΠερίληψη
Στην παρούσα εργασία συγκρίνουμε τα εργαλεία εξόρυξης δεδομένων KNIME και Knowledge Flow του WEKA σε θεωρητικό αλλά και πειραματικό πλαίσιο με σκοπό την εύρεση ενός μοντέλου πρόβλεψης της διάρκειας ψηφιοποίησης του αρχειακού υλικού (φακέλων) της εταιρείας «Αρχειοθήκη Α.Ε.». Η τεχνική που ακολουθήθηκε για την δημιουργία του μοντέλου πρόβλεψης είναι η τεχνική της παλινδρόμησης με βάση τους αλγορίθμους KNN, SVM, Random Forest, Decision Tree και Linear Regression σε ένα σύνολο δεδομένων προερχόμενο από την ίδια την εταιρεία. Σύμφωνα με τα πειραματικά μας αποτελέσματα, το WEKA και το ΚΝΙΜΕ παρέχουν εξίσου καλά αποτελέσματα πρόβλεψης με το WEKA να διαθέτει περισσότερους αλγορίθμους για την συγκεκριμένη τεχνική εξόρυξης. Το KNIME παρέχει μία πιο εύχρηστη, διαισθητική/ενστικτώδη διεπαφή χρήστη (intuitive user interface), δηλαδή ο χρήστης να είναι σε θέση να χρησιμοποιήσει τη ροή εργασίας εύκολα και γρήγορα χωρίς να χρειάζεται να προβληματιστεί πολύ πώς να το κάνει, ώστε η κατανόηση της ροής να είναι κατάλληλη και για πιο αρχάριους χρήστες. Τα αποτελέσματα μπορεί να διαφέρουν ανάλογα με την εφαρμογή διαφορετικών αλγορίθμων, από τα ευρήματα μας όμως προέκυψε ότι οι αλγόριθμοι Random Forest και Decision Tree έδωσαν τα καλύτερα αποτελέσματα με βάση όλα τα χαρακτηριστικά, όπως ο χρήστης, ο αριθμός των εβδομάδων, ο αριθμός των εγγράφων και ο αριθμός των σελίδων κάθε φακέλου.
Περίληψη
Within this thesis we compare the KNIME data mining tools and the graphical environment Knowledge Flow of the WEKA in a theoretical context but also experimentally in order to find a model for predicting the duration of digitization of archival material (files) of the company "Archeiothiki S.A.”. The technique used to create the prediction model is the regression technique based on the KNN, SVM, Random Forest, Decision Tree and Linear Regression algorithms in a set of data from the company itself. According to our experimental results, WEKA and KNIME provide equally good prediction results with WEKA having more algorithms for this particular mining technique. KNIME provides a more useful, instinctive/intuitive user interface, meaning the user is able to use the workflow quickly and easy, without consciously thinking about how to do it, so that the understanding of the flow is appropriate and for more novice users. The results may differ depending on the application of different algorithms· but our findings showed that the Random Forest and Decision Tree algorithms gave the best results based on features such as user, weeks, number of documents and number of pages of each folder.