Εμφάνιση απλής εγγραφής

Development of a toolbox for data mining

dc.contributor.advisorΜαστοροκώστας, Πάρις
dc.contributor.authorΤσουγκούϊ, Μιχαήλ-Αντρέϊ
dc.date.accessioned2025-03-17T10:27:18Z
dc.date.available2025-03-17T10:27:18Z
dc.date.issued2025-03-10
dc.identifier.urihttps://polynoe.lib.uniwa.gr/xmlui/handle/11400/8798
dc.description.abstractThe subject of this thesis is the development of a Python application that implements basic algorithms for classification, regression, clustering, and association rules, all of which are considered fundamental in Data Mining. Existing implementations are integrated into a single app, accessible through a graphical environment with concise help of interactive nature. The field of Data Mining has roots in statistics, machine learning and pattern recognition theory. Ever since its emergence in the early 1990s, it has been at the epicenter of various methodologies that encompass it, notably KDD and CRISP-DM among many. The application supports loading a dataset, performing data cleaning and preprocessing, splitting the dataset for post-training evaluation, choosing one of the available data mining techniques, fitting the model, and, in the case of predictive models, the application of cross-validation as a final step (whether for model selection or for model evaluation). Models used in both classification and regression include Decision Trees, Support Vector Machines (SVM), and k-Nearest Neighbors (KNN). Available classifiers include Naïve Bayes and Logistic Regression. Additionally, there is Linear Regression for the regression category. Available clustering algorithms are K-Means, DBSCAN, and Agglomerative clustering. These implementations are based on the Scikit-learn library, with the app essentially acting as a wrapper or interface with its own additional features. For Association Rules, the Apriori and FP-Growth algorithms can be used for the generation of frequent itemsets. KivyMD was used for the front-end, which is based on Kivy, a GUI library available in Python. An appendix is dedicated to concepts and equations that are fundamental to the various subjects discussed in this thesis.el
dc.format.extent251el
dc.language.isoenel
dc.publisherΠανεπιστήμιο Δυτικής Αττικήςel
dc.rightsΑναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές*
dc.rightsΑναφορά Δημιουργού 4.0 Διεθνές*
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/*
dc.subjectData miningel
dc.subjectMachine learningel
dc.subjectPythonel
dc.subjectKivyel
dc.subjectGUIel
dc.subjectΕξόρυξη δεδομένωνel
dc.subjectΜηχανική μάθησηel
dc.titleDevelopment of a toolbox for data miningel
dc.title.alternativeΑνάπτυξη εργαλειοθήκης αλγορίθμων εξόρυξης δεδομένωνel
dc.typeΔιπλωματική εργασίαel
dc.contributor.committeeTroussas, Christos
dc.contributor.committeeTselenti, Panagiota
dc.contributor.facultyΣχολή Μηχανικώνel
dc.contributor.departmentΤμήμα Μηχανικών Πληροφορικής και Υπολογιστώνel
dc.description.abstracttranslatedΤο αντικείμενο της συγκεκριμένης εργασίας είναι ανάπτυξη μιας εφαρμογής Python που υλοποιεί βασικούς αλγόριθμους για ταξινόμηση, παλινδρόμηση, ομαδοποίηση και κανόνες συσχέτισης, οι οποίοι θεωρούνται θεμελιώδεις στην Εξόρυξη Δεδομένων. Οι υπάρχουσες υλοποιήσεις ενσωματώνονται σε μια ενιαία εφαρμογή, προσβάσιμη μέσω ενός γραφικού περιβάλλοντος με συνοπτική βοήθεια διαδραστικής φύσης. Ο τομέας της Εξόρυξης Δεδομένων έχει ρίζες στη στατιστική, τη μηχανική μάθηση και τη θεωρία αναγνώρισης προτύπων. Από την εμφάνισή του στις αρχές της δεκαετίας του 1990, ήταν στο επίκεντρο διαφόρων μεθοδολογιών, ιδίως των KDD και CRISP-DM μεταξύ πολλών άλλων. Η εφαρμογή υποστηρίζει τη φόρτωση ενός συνόλου δεδομένων, την εκτέλεση καθαρισμού και προεπεξεργασίας δεδομένων, τον διαχωρισμό του συνόλου για αξιολόγηση μετά την εκπαίδευση, την επιλογή μιας από τις διαθέσιμες τεχνικές εξόρυξης δεδομένων, την προσαρμογή του μοντέλου και, στην περίπτωση των μοντέλων πρόβλεψης, την εφαρμογή διασταυρούμενης επικύρωσης ως τελικό βήμα (είτε για επιλογή μοντέλου ή για αξιολόγηση). Τα μοντέλα που χρησιμοποιούνται τόσο στην ταξινόμηση όσο και στην παλινδρόμηση περιλαμβάνουν τα δέντρα απόφασης, τις μηχανές διανυσμάτων υποστήριξης (SVM) και τους k-πλησιέστερους γείτονες (KNN). Οι διαθέσιμοι ταξινομητές περιλαμβάνουν τον Απλοϊκό Bayes και την λογιστική παλινδρόμηση. Επιπρόσθετα, υπάρχει η γραμμική παλινδρόμηση για την κατηγορία παλινδρόμησης. Οι διαθέσιμοι αλγόριθμοι ομαδοποίησης είναι οι K-Means, DBSCAN και Agglomerative clustering. Οι συγκεκριμένες υλοποιήσεις βασίζονται στη βιβλιοθήκη Scikit-learn, με την εφαρμογή να λειτουργεί ουσιαστικά ως ενας «wrapper» ή μια διεπαφή, με τις δικές της πρόσθετες δυνατότητες. Σχετικά με τους κανόνες συσχέτισης, οι αλγόριθμοι Apriori και FP-Growth μπορούν να χρησιμοποιηθούν για τη δημιουργία συχνών συνόλων στοιχείων. Το KivyMD χρησιμοποιήθηκε για το front-end, το οποίο βασίζεται στην Kivy, μια βιβλιοθήκη GUI διαθέσιμη στην Python. Ένα παράρτημα είναι αφιερωμένο σε θεμελιώδεις έννοιες και εξισώσεις πάνω στα οποία βασίζονται τα διάφορα θέματα που συζητούνται σε αυτή τη διατριβή.el


Αρχεία σε αυτό το τεκμήριο

Thumbnail

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές
Εκτός από όπου επισημαίνεται κάτι διαφορετικό, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές