Ανάλυση και πρόβλεψη μετεωρολογικών δεδομένων ακολουθώντας τη διαδικασία ανακάλυψης γνώσης σε βάσεις δεδομένων
Analysis and prediction of meteorological data using the process of knowledge discovery in databases
Keywords
Πρόβλεψη καιρικών συνθηκών ; Τεχνητή νοημοσύνη ; Μηχανική μάθηση ; Επιβλεπόμενη μάθηση ; Python ; Scikit-learn ; WekaAbstract
Στην καθημερινή ζωή, οι ανθρώπινες δραστηριότητες, όπως η εργασία, η αναψυχή και η κοινωνικοποίηση, εξαρτώνται σε μεγάλο βαθμό από τις καιρικές συνθήκες. Σωστές προβλέψεις βοηθούν τους ανθρώπους να προετοιμαστούν και να προσαρμοστούν καλύτερα. Με την πάροδο του χρόνου και την εξέλιξη και την άνοδο της τεχνολογίας, η μηχανική μάθηση μπορεί να δώσει λύσεις και αξιόπιστες προβλέψεις. Στη μελέτη αυτή θα ακολουθήσουμε τη διαδικασία ανακάλυψης της γνώσης από βάσεις δεδομένων προκειμένου να εκπαιδεύσουμε διάφορα μοντέλα μηχανικής μάθησης χρησιμοποιώντας την βιβλιοθήκη scikit-learn της γλώσσας προγραμματισμού Python, και το εργαλείο ανοιχτού κώδικα WEKA. Οι αλγόριθμοι μηχανικής μάθησης που θα χρησιμοποιηθούν είναι οι Κ-κοντινότεροι-γείτονες, η Λογιστική παλινδρόμηση, τα Δέντρα απόφασης, τα Τυχαία δάση, τα Τυχαία Δάση, ο AdaBoost, ο Απλοϊκός Bayes, οι Μηχανές Διανυσμάτων Υποστήριξης και το Νευρωνικό δίκτυο πολλών επιπέδων. Η μεταβλητή "στόχος" παίρνει τιμές "Rain" και "Νot Rain". Στην συνέχεια θα αξιολογήσουμε αυτούς τους κατηγοριοποιητές και θα προτείνουμε τον πιο αξιόπιστο βάσει των αποτελεσμάτων της παρούσας μελέτης. O κατηγοριοποιητής RandomForest είναι ο πιο βέλτιστος για την πρόβλεψη βροχόπτωσης συγκριτικά με τους υπόλοιπους κατηγοριοποιητές τόσο στο scikit-learn όσο και στο WEKA.
Abstract
In everyday life, human activities such as work, leisure, and socialization are highly dependent on weather conditions. Accurate predictions help people prepare and adapt better. Over time, with the evolution and advancement of technology, machine learning can provide solutions and reliable forecasts. In this study, we will follow the process of knowledge discovery from databases to train various machine learning models using the scikit-learn library in Python and the open-source tool WEKA. The machine learning algorithms to be used include K-Nearest Neighbors, Logistic Regression, Decision Trees, Random Forests, AdaBoost, Naive Bayes, Support Vector Machines, and Multilayer Perceptron Neural Network. The target variable takes values "Rain" and "Not Rain". Subsequently, we will evaluate these classifiers and propose the most reliable one based on the results of this study. The RandomForest classifier is the most optimal for rainfall prediction compared to the other classifiers, both in scikit-learn and WEKA.