Έρευνα και επισκόπηση αλγορίθμων μηχανικής μάθησης για συσταδοποίηση και χρήση κανόνων σε δεδομένα εκπαίδευσης με χρήση του εργαλείου Weka
Research and overview of machine learning algorithms for clustering and usage rules on educational data using the Weka tool
Μεταπτυχιακή διπλωματική εργασία
Συγγραφέας
Μπέρκ, Αναστασία - Μαρία
Ημερομηνία
2023-02Επιβλέπων
Μυλωνάς, ΦοίβοςΛέξεις-κλειδιά
Συσταδοποίηση ; Weka ; Μηχανική μάθηση ; Εξόρυξη εκπαιδευτικών δεδομένων ; Εξόρυξη δεδομένωνΠερίληψη
Η συγκεκριμένη εργασία αποτελεί επισκόπηση που αφορά τα προβλήματα μηχανικής μάθησης με δεδομένα από τον εκπαιδευτικό χώρο και εξαρτώνται σε μεγάλο βαθμό από τους αλγόριθμους που χρησιμοποιούνται για την εκπαίδευση του εκάστοτε μοντέλου. Υπάρχουν διάφορες προσεγγίσεις και αλγόριθμοι για την εκπαίδευση ενός μοντέλου μηχανικής μάθησης. Η εποπτευόμενη και η μη εποπτευόμενη μάθηση είναι οι δύο πιο σημαντικές από αυτές τις προσεγγίσεις. Προβλήματα που έχουν αναδυθεί και αποτελούν σημαντικό πεδίο έρευνας του εκπαιδευτικού τομέα σχετίζονται με τις εκπαιδευτικές πρακτικές που εφαρμόζονται στην τηλεκπαίδευση και θα μπορούσαν εύκολα να ερευνηθούν και να επιλυθούν με τη βοήθεια μιας μορφής μάθησης χωρίς επίβλεψη, γνωστή και ως Clustering ή στα ελληνικά συσταδοποίηση (ή και ομαδοποίηση).
Όπως προκύπτει και από την ονομασία της, η συσταδοποίηση περιλαμβάνει το χωρισμό σημείων δεδομένων σε πολλές συστάδες με παρεμφερείς τιμές. Δηλαδή, η συσταδοποίηση στοχεύει να διαχωρίσει ομάδες στοιχείων με παρόμοια χαρακτηριστικά όπου στη συνέχεια θα ομαδοποιηθούν σε διαφορετικές μεταξύ τους συστάδες. Αν και για τους ανθρώπους είναι εύκολο να εκπαιδευτούν στα να διαχωρίζουν ένα μήλο από ένα πορτοκάλι το ίδιο δεν ισχύει για ένα μηχάνημα παρά μόνο εάν εκπαιδευτεί αποτελεσματικά σε ένα σχετικά μεγάλο σύνολο δεδομένων. Αυτή η εκπαίδευση επιτυγχάνεται με αλγόριθμους μάθησης χωρίς επίβλεψη (ή μη εποπτευόμενη μάθηση) και συγκεκριμένα με συσταδοποίηση.
Σε απλή γλώσσα, οι συστάδες είναι η συγκέντρωση σημείων δεδομένων που έχουν παρεμφερείς τιμές ή χαρακτηριστικά και οι αλγόριθμοι συσταδοποίησης είναι οι μέθοδοι για την συσταδοποίηση παρεμφερών σημείων δεδομένων σε ετερογενή ενιαία σύνολα ετερόκλητων στοιχείων συνδεμένων μεταξύ τους με διαφορετικούς κανόνες με βάση τις τιμές ή τα χαρακτηριστικά που τα διακρίνουν.
Σκοπός αυτής της διπλωματικής είναι η χρήση αλγόριθμων μηχανικής μάθησης για συσταδοποίηση και χρήση κανόνων σε ένα σύνολο δεδομένων χρησιμοποιώντας το εργαλείο Weka, ιδανικό για τη διεξαγωγή συμπερασμάτων σε δεδομένα εκπαίδευσης.
Περίληψη
This paper is an overview of machine learning problems with data from the educational field, which are highly dependent on the algorithms used to train each model. There are various approaches and algorithms for training a machine learning model. Supervised and unsupervised learning are the two most important of these approaches. Problems that have emerged and are an important field of research in the educational sector are related to the educational practices applied in distance education and could easily be investigated and solved with the help of a form of unsupervised learning, also known as Clustering or in Greek grouping).
As its name suggests, clustering involves dividing data points into several clusters with similar values. That is, clustering aims to separate groups of elements with similar characteristics where they will then be grouped into different clusters. Although it is easy for humans to be trained to tell an apple from an orange, the same is not true for a machine unless it is effectively trained on a relatively large data set. This training is achieved with unsupervised learning (or unsupervised learning) algorithms, namely clustering. In plain language, clusters are the aggregation of data points that have similar values or characteristics, and clustering algorithms are the methods for clustering similar data points into heterogeneous single sets of disparate elements connected together by different rules based on the values or characteristics that distinguish them.
The purpose of this diploma is to use machine learning algorithms for clustering and applying rules to a dataset using the Weka tool, ideal for conducting inference on training data.