Συγκριτική αξιολόγηση αλγορίθμων μηχανικής μάθησης: η περίπτωση της πρόβλεψης δασικών πυρκαγιών
Comparative evaluation of machine learning algorithms: the case of forest fires prediction
Keywords
Δασικές πυρκαγιές ; Τεχνητή νοημοσύνη ; Μηχανική μάθηση ; Αλγόριθμοι μηχανικής μάθησης ; Συγκριτική αξιολόγηση ; Κατηγοριοποίηση ; Κατηγοριοποιητές ; Python ; Scikit-learnAbstract
Οι δασικές πυρκαγιές είναι ένα από τα σημαντικότερα προβλήματα στον πλανήτη μας. Εξαιτίας
των δασικών πυρκαγιών καταστρέφονται μεγάλες εκτάσεις δασών. Αυτό έχει ως συνέπεια την
καταστροφή τους, την μόλυνση του περιβάλλοντος, την αύξηση της κλιματικής αλλαγής
προκαλώντας οικονομικά προβλήματα και απειλώντας την ανθρώπινη ζωή. Με την άνοδο της
τεχνολογίας, η μηχανική μάθηση μπορεί να δώσει λύσεις σε ολοένα και περισσότερα προβλήματα
όπου ένα από αυτά τα προβλήματα είναι οι δασικές πυρκαγιές. Η μηχανική μάθηση είναι μέρος
της τεχνητής νοημοσύνης και έχει την δυνατότητα να βελτιώνεται αυτόματα μέσω της εμπειρίας
και της χρήσης των δεδομένων.
Στην παρούσα διπλωματική εργασία, θα γίνει συγκριτική αξιολόγηση αλγόριθμων μηχανικής
μάθησης για την πρόβλεψη δασικών πυρκαγιών. Η πρόβλεψη και η συγκριτική αξιολόγηση των
αλγόριθμων μηχανικής μάθησης θα γίνει με χρήση της γλώσσας προγραμματισμού Python και
μέσω της βιβλιοθήκης Scikit-learn. Αρχικά θα επιλεχθούν ορισμένοι αλγόριθμοι μηχανικής
μάθησης για κατηγοριοποίηση. Αυτοί οι αλγόριθμοι μηχανικής μάθησης, ή αλλιώς
κατηγοριοποιητές, που θα χρησιμοποιηθούν είναι οι Κ-κοντινότεροι-γείτονες, τα Δέντρα
απόφασης, τα Τυχαία δάση, ο AdaBoost, ο Gradient tree bosting, η Λογιστική παλινδρόμηση, το
Νευρωνικό δίκτυο πολλών επιπέδων και ο Απλοϊκός Bayes εφαρμόζοντας την κατανομή
Bernoulli. Στην συνέχεια αυτοί οι αλγόριθμοι μηχανικής μάθησης για κατηγοριοποίηση θα
χρησιμοποιηθούν πάνω σε δεδομένα δύο πόλεων της Αλγερίας. Η έξοδος του συνόλου δεδομένων
είναι “not fire” ή “fire”. Αφού χρησιμοποιηθούν στο συγκεκριμένο σύνολο δεδομένων θα γίνει
συγκριτική αξιολόγηση μεταξύ τους. Πιο συγκεκριμένα, θα υπολογιστεί η ορθότητα, η ακρίβεια,
η ανάκληση και ο αρμονικός μέσος του κάθε αλγόριθμου και στο τέλος θα γίνει συγκριτική
αξιολόγηση μεταξύ τους. Ο αλγόριθμος ο οποίος έχει την υψηλότερη απόδοση είναι ο πιο
βέλτιστος και είναι ο πιο κατάλληλος για την πρόβλεψη των δασικών πυρκαγιών στο
συγκεκριμένο σύνολο δεδομένων. Ο κατηγοριοποιητής RandomForestClassifier είναι ο πιο
βέλτιστος έχοντας την υψηλότερη απόδοση συγκριτικά και είναι ο πιο κατάλληλος για την
πρόβλεψη των δασικών πυρκαγιών στο σύνολο των δεδομένων της Αλγερίας.
Abstract
Forest fires are one of the most important problems in our planet. Due to the forest fires, large
areas of forests are destroyed. This has effect on polluting the environment, increasing climate
change as well as causing economic problems and threatening human life. With the rise of the
technology, machine learning can provide solutions to more and more problems; one of these
problems is forest fires. Machine learning is part of artificial intelligence and has the potential to
be automatically enhanced through experience and the use of big data.
In the present thesis a comparative evaluation of machine learning algorithms for the prediction of
forest fires will be presented. The prediction and comparative evaluation of the machine learning
algorithms will be conducted with the use of the Python programming language and through the
Scikit-learn library. Initially some machine learning algorithms will be selected for classification.
These machine learning algorithms, or classifiers, that will be used are K-nearest-neighbors,
Decision Trees, Random Forests, AdaBoost, Gradient tree bosting, Logistic Regression,
Multilevel Neural Networks and Naïve Bayes applying the Bernoulli distribution. Then these
machine learning algorithms for classification will be used on data from two Algerian cities. The
data set output is “not fire” or “fire”. After being applied in this data set, a comparative evaluation
will be made between them. More specifically, the accuracy, precision, recall and f1 score of each
algorithm will be calculated and at the end a comparative analysis will be performed. The
algorithm that has the highest performance is the most optimal and is the most suitable for
predicting forest fires in this data set. The classifier RandomForestClassifier is the most optimal
having the highest performance and is the most suitable for the prediction of the forest fires in the
data set of Algeria.