Show simple item record

Διαχείριση δεδομένων βιβλιοθηκών στην πλατφόρμα WEKA: υποσυστήματα Explorer & Knowledge Flow

dc.contributor.advisorTriantafyllou, Ioannis
dc.contributor.authorΣερέτη, Χρυσάνθη
dc.date.accessioned2021-02-05T07:34:37Z
dc.date.available2021-02-05T07:34:37Z
dc.date.issued2020-09-26
dc.identifier.urihttps://polynoe.lib.uniwa.gr/xmlui/handle/11400/174
dc.identifier.urihttp://dx.doi.org/10.26265/polynoe-25
dc.description.abstractΣτην παρούσα εργασία θα παρουσιαστούν και θα συγκριθούν τα υποσυστήματα Explorer και Knowledge Flow του περιβάλλοντος εξόρυξης δεδομένων WEKA. Η σύγκριση θα γίνει σε θεωρητικό πλαίσιο, αλλά και σε πειραματικό επίπεδο με σκοπό την εύρεση ενός μοντέλου πρόβλεψης για τον τύπο και την ηλικία των χρηστών της Δημόσιας Βιβλιοθήκης του Σαν Φρανσίσκο σε σχέση με την συμπεριφορά τους στην κίνηση υλικού. Η τεχνική που χρησιμοποιήθηκε για την δημιουργία πρόβλεψης είναι η τεχνική της ταξινόμησης-κατηγοριοποίησης (classification) με βάση τους αλγορίθμους K-NN, SVM, Random Forest, Decision Tree, και Naive Bayes σε ένα σύνολο δεδομένων προερχόμενο από την ίδια την βιβλιοθήκη. Σύμφωνα με την θεωρητική προσέγγιση, τα δύο περιβάλλοντα παρέχουν την ίδια συλλογή αλγορίθμων μηχανικής μάθησης καθώς και εργαλεία προ-επεξεργασίας δεδομένων. Στις πειραματικές δοκιμές επίσης, απέδωσαν τα ίδια αποτελέσματα. Η μέθοδος επικύρωσης που χρησιμοποιήθηκε είναι αυτή της διασταυρωμένης επικύρωσης με 10 folds. Το περιβάλλον του Explorer φαίνεται ότι είναι μία διεπαφή χρήστη στην οποία απαιτείται αρκετός χρόνος εξοικείωσης αλλά προσφέρει μεγαλύτερη ευελιξία και δυνατότητες. Το περιβάλλον του Knowledge Flow είναι γραφικό και λειτουργεί με κόμβους, διασυνδέσεις και drag and drop μενού. Οι μέθοδοι που ανταποκρίθηκαν καλύτερα είναι οι Random Forest, Random Tree και K-nn όπου τα αποτελέσματα τους αν και ήταν αποδεκτά αφού το f-measure έφτασε το 61.7%, δεν θεωρείται ενθαρρυντική απόδοση. Τελικά, η αρχική ερευνητική υπόθεση καταλήγει στο συμπέρασμα ότι δεν υπάρχει έντονη συσχέτιση της ηλικίας με την συμπεριφορά δανεισμού των χρηστών, και εξαρτάται από άλλους παράγοντες.el
dc.format.extent158el
dc.language.isoelel
dc.publisherΠανεπιστήμιο Δυτικής Αττικήςel
dc.rightsΑναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 4.0 Διεθνές*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/*
dc.subjectWekael
dc.subjectExplorerel
dc.subjectKnowledge Flowel
dc.subjectClassificationel
dc.subjectΤαξινόμηση-Κατηγοριοποίησηel
dc.subjectΕπιλογή χαρακτηριστικώνel
dc.subjectFeature selectionel
dc.titleΔιαχείριση δεδομένων βιβλιοθηκών στην πλατφόρμα WEKA: υποσυστήματα Explorer & Knowledge Flowel
dc.title.alternativeLibrary data management on the WEKA platform: Explorer & Knowledge Flow subsystemsel
dc.typeΜεταπτυχιακή διπλωματική εργασίαel
dc.contributor.committeeKouis, Dimitris
dc.contributor.committeeKyprianos, Konstantinos
dc.contributor.facultyΣχολή Διοικητικών, Οικονομικών & Κοινωνικών Επιστημώνel
dc.contributor.departmentΤμήμα Αρχειονομίας, Βιβλιοθηκονομίας και Συστημάτων Πληροφόρησηςel
dc.contributor.masterΔιαχείριση Πληροφοριών σε Βιβλιοθήκες, Αρχεία, Μουσείαel
dc.description.abstracttranslatedIn the present work, the Explorer and Knowledge Flow subsystems of the WEKA data mining environment will be presented and compared. The comparison will be made in a theoretical context, but also on an experimental level in order to find a prediction model for the type and age of the users of the San Francisco Public Library in relation to their behavior in the movement of material. The technique used to create the forecast is the classification technique based on the algorithms K-NN, SVM, Random Forest, Decision Tree, and Naive Bayes in a data set from the library itself. According to the theoretical approach, the two environments provide the same set of machine learning algorithms as well as data pre-processing tools. In the experimental tests they also gave the same results. The validation method used is that of cross-validation with 10 folds. The Explorer interface seems to be a user interface that takes a lot of familiarization time but offers more flexibility and features. The Knowledge Flow interface is graphical and works with nodes, interfaces and drag and drop menus. The methods that responded best are Random Forest, Random Tree and K-nn where their results, although acceptable after the f-measure reached 61.7%, are not considered encouraging performance. Ultimately, the original research hypothesis concludes that there is no strong correlation between age and consumer lending behavior, and it depends on other factors.el


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 4.0 Διεθνές
Except where otherwise noted, this item's license is described as
Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 4.0 Διεθνές