Μέθοδοι παραγωγής συνθετικών δεδομένων για την εκπαίδευση μοντέλων μηχανικής μάθησης σε προβλήματα ταξινόμησης πολλαπλών κλάσεων
Synthetic data generation techniques for training machine learning-based models in multiclass classification problems

Λέξεις-κλειδιά
Fuzzy means ; Δίκτυα ακτινικής συνάρτησης βάσης ; Adaptive synthetic sampling ; Μέθοδος ADASYN ; Μηχανική μάθηση ; Μοντέλα ταξινόμησης ; Νευρωνικά δίκτυα ; Συνθετικά δεδομένα ; Radial basis functionΠερίληψη
Η ανάπτυξη μοντέλων παραγωγής συνθετικών δεδομένων για εφαρμογές μηχανικής μάθησης έχει αναδειχθεί σε ένα καίριο θέμα έρευνας τα τελευταία χρόνια. Η επιτυχής εφαρμογή μεθόδων μηχανικής μάθησης εξαρτάται σε μεγάλο βαθμό από την ύπαρξη μεγάλων συνόλων δεδομένων, η απόκτηση των οποίων ωστόσο μπορεί να είναι χρονοβόρα και, σε πολλές περιπτώσεις αδύνατη. Για την αντιμετώπιση προβλημάτων σχετικά με την απουσία δεδομένων, έχουν προταθεί αλγόριθμοι παραγωγής συνθετικών δεδομένων ως εναλλακτική λύση. Αυτοί οι αλγόριθμοι επιτρέπουν τη δημιουργία μεγάλων συνόλων δεδομένων που μιμούνται πιστά τις στατιστικές ιδιότητες και τη δομή των πραγματικών δεδομένων. Στην παρούσα διπλωματική εργασία, προτείνεται ένα μοντέλο ταξινόμησης που στοχεύει στην επίτευξη υψηλής ακρίβειας και αξιοπιστίας, ιδιαίτερα για τις μειοψηφικές κλάσεις σε μη ισορροπημένα σύνολα δεδομένων. Η ανισότητα κλάσεων αποτελεί ένα σοβαρό πρόβλημα σε πολλές πραγματικές εφαρμογές μηχανικής μάθησης, όπου ορισμένες κλάσεις είναι ανεπαρκώς εκπροσωπημένες, γεγονός που οδηγεί σε χαμηλή απόδοση του μοντέλου και μεροληψία προς τις πλειοψηφικές κλάσεις. Ως προς το προβλεπτικό μοντέλο, στην παρούσα διπλωματική εργασία γίνεται χρήση νευρωνικών δικτύων ακτινικής βάσης (Radial Basis Function, RBF), τα οποία είναι γνωστά για την ικανότητά τους να αποτυπώνουν μη γραμμικές σχέσεις σε υψηλής διάστασης χώρους. Η εκπαίδευσή αυτών των νευρωνικών δικτύων δεν ακολουθεί τη συνήθη μέθοδο οπισθοδρόμησης (backpropagation), αλλά γίνεται με την χρήση ενός εναλλακτικού αλγορίθμου που βασίζεται στην ασαφή λογική, του αλγόριθμου των ασαφών μέσων (Fuzzy Means, FM). Μέσω του αλγορίθμου Fuzzy Means, εξάγονται οι πιθανές θέσεις και ο αριθμός των κέντρων του κρυφού επιπέδου του νευρωνικού δικτύου, διευκολύνοντας την πιο ακριβή προσαρμογή των βαρών κατά τη διάρκεια της εκπαίδευσης. Επιπλέον, χρησιμοποιείται ο αλγόριθμος ADASYN (Adaptive Synthetic Sampling) για την παραγωγή συνθετικών δειγμάτων για τις κλάσεις μειοψηφίας. Ο ADASYN είναι τεχνική που δημιουργεί συνθετικά δείγματα (synthetic data samples) εστιάζοντας κυρίως σε εκείνα τα παραδείγματα που είναι δύσκολο να ταξινομηθούν. Ενισχύοντας τη κλάση μειοψηφίας με αυτά τα συνθετικά δείγματα, ο ADASYN βελτιώνει την ικανότητα του ταξινομητή (classifier) να γενικεύει σε όλες τις κλάσεις, βελτιώνοντας την απόδοση του μοντέλου. Μέσω της συνδυαστικής χρήσης, των νευρωνικών δικτύων RBF και των αλγορίθμων Fuzzy Means και ADASYN, η παρούσα διπλωματική εργασία παρουσιάζει μια καινοτόμο προσέγγιση στη δημιουργία συνθετικών δεδομένων και ταξινόμησης τους, η οποία όχι μόνο αντιμετωπίζει τις προκλήσεις που προκύπτουν από την έλλειψη δεδομένων και την ανισότητα κλάσεων, αλλά ενισχύει επίσης την αξιοπιστία των μοντέλων μηχανικής μάθησης. Τα αποτελέσματα των πειραματικών αξιολογήσεων δείχνουν ότι αυτή η υβριδική προσέγγιση βελτιώνει σημαντικά την απόδοση των ταξινομητών. Επιπλέον, η προτεινόμενη μεθοδολογία μπορεί να βρει εφαρμογή σε τομείς όπως η ιατρική διάγνωση και η χρηματοοικονομική πρόβλεψη.
Περίληψη
The development of synthetic data generation models for machine learning applications has emerged as a paramount research focus in recent years. The successful deployment of machine learning techniques often hinges on the availability of large, datasets; however, the acquisition and curation of such datasets can be both labor-intensive and, in many instances infeasible. To address these issues related to the absence of data, synthetic data generation algorithms have been proposed as a viable alternative. These algorithms enable the creation of large datasets that closely mimic the statistical properties and structure of the original data. In the present thesis, we propose a classification model designed to achieve high levels of accuracy and reliability, particularly for minority classes in imbalanced datasets. Class imbalance remains a significant issue in many real-world machine learning applications, where certain classes may be underrepresented, leading to suboptimal model performance and bias toward the majority classes. As for the predictive model, this work uses Radial Basis Function (RBF) neural networks, which are known for their ability to capture non-linear relationships in high-dimensional spaces. The training of these neural networks does not follow the usual backpropagation method, but is carried out using an alternative algorithm based on fuzzy logic, namely the Fuzzy Means (FM) algorithm. Using the Fuzzy Means algorithm, we derive the potential positions and the number of centers in the hidden layer of the RBF neural network, facilitating more accurate weight adjustments during the training process. Furthermore, we utilize the ADASYN (Adaptive Synthetic Sampling) algorithm to generate synthetic samples for the minority classes. ADASYN is a technique in the realm of data augmentation, which adaptively generates synthetic instances by focusing on those examples that are difficult to classify. By enhancing the minority class with these synthetically generated instances, ADASYN improves the classifier’s ability to generalize across all classes and improving model performance. Through the combined use of RBF neural networks, Fuzzy Means and ADASYN algorithms, this thesis demonstrates a novel approach to synthetic data generation and classification that not only addresses the challenges posed by data scarcity and class imbalance but also enhances the reliability of machine learning models. The results of the experimental evaluations suggest that this hybrid approach significantly improves classifier performance. Additionally, the proposed methodology can be applied in fields such as medical diagnosis and financial forecasting.