Wildfire prediction using machine learning
Πρόβλεψη πυρκαγιάς με χρήση μηχανικής μάθησης
Μεταπτυχιακή διπλωματική εργασία
Author
Σταφυλάς, Δημήτριος
Date
2022-07-18Advisor
Leligou, Helen C. (Nelly)Keywords
Machine learning ; Wildfire ; Random forest ; Support Vector Machines ; Logistic regression ; Linear regression ; Neural networks ; Decision trees ; Extreme gradient boosting ; K-nearest neighbors ; Fire occurrence ; Fire scale ; Burned area ; Μηχανική μάθηση ; Πυρκαγιές ; Αλγόριθμοι μηχανικής μάθησης ; Δασικές πυρκαγιέςAbstract
The use of supervised Machine Learning algorithms is widespread in the science of fires. The objective of this postgraduate thesis was to conduct three experiments utilizing only weather variables for the region of the Attica basin. More specifically, the prediction of the probability of fire occurrence (binary classification) for 12, 4 and 2 weather variables respectively, was implemented as first experiment, the prediction of the fire scale (multi-class classification: small fire, medium fire, large fire, wildfire) for 12 weather variables as second experiment and the prediction of the size of the burned area of forest fires for 12 and 4 weather variables as third experiment (regression task). Initially, a new dataset named “wildfire” was synthesized that included the prevailing weather conditions during the forest fires occurrences in the Attica basin. Based on this, an attempt was made to conduct the three experiments with the resulting predictions proving to be particularly impressive. The performance of the formed wildfire dataset was compared with the known prior art Montesinho dataset in order to evaluate which of the two functioned best in the application of supervised Machine Learning algorithms. The comparative results showed that for all 12 weather variables extracted by the wildfire dataset, a tuned Random Forest model (70%) outperformed other classification models regarding prediction accuracy of fire occurrence. In alternative embodiments for the best 4 and 2 selected weather features correspondingly the Extreme Gradient Boosting (XGBoost) prediction model achieved the best accuracy (67.4%) in terms of fire occurrence prediction and the Neural Networks performed marginally better (63.6%) than the Random Forest (63.3%). As for the problem of multi-class classification of fire scale prediction (small fire, medium fire, large fire, wildfire), it demonstrated that the model of the K- nearest neighbors implemented better (50%) than the other prediction models. The findings for forecasting of size of burned area of forest fires turned out that by using all the weather variables the K-nearest neighbors (r² score value 70%) outperformed other regression models while for 4 chosen weather features poor outcomes were provided by regression models with only the Linear Regression algorithm to carry out better than others (r² score value 2%). Finally, a comparison was made with the known prior art Montesinho dataset for 4 and 2 selected weather variables for the first experiment, as well as for 4 weather variables for the third experiment. The results showed that the newly created wildfire dataset functioned much better when applying the supervised Machine Learning algorithms.
Abstract
Η χρήση εποπτευόμενων αλγορίθμων Μηχανικής Μάθησης είναι ευρέως διαδεδομένη στην επιστήμη των πυρκαγιών. Στόχος της παρούσας μεταπτυχιακής διατριβής ήταν η διεξαγωγή τριών πειραμάτων χρησιμοποιώντας μόνο μεταβλητές καιρού για την περιοχή του λεκανοπεδίου της Αττικής. Πιο συγκεκριμένα, η πρόβλεψη της πιθανότητας εκδήλωσης πυρκαγιάς (δυαδική ταξινόμηση) για 12, 4 και 2 μεταβλητές καιρού αντίστοιχα, εφαρμόστηκε ως πρώτο πείραμα, η πρόβλεψη της κλίμακας πυρκαγιάς (ταξινόμηση πολλαπλών κατηγοριών: μικρή φωτιά, μέτρια φωτιά, μεγάλη φωτιά, πυρκαγιά) για 12 μεταβλητές καιρού ως δεύτερο πείραμα και η πρόβλεψη του μεγέθους της καμένης έκτασης δασικών πυρκαγιών για 12 και 4 μεταβλητές καιρού ως τρίτο πείραμα (εργασία παλινδρόμησης). Αρχικά, συντέθηκε ένα νέο σύνολο δεδομένων με το όνομα «wildfire» που περιελάμβανε τις επικρατούσες καιρικές συνθήκες κατά τη διάρκεια των εκδηλώσεων δασικών πυρκαγιών στο λεκανοπέδιο της Αττικής. Με βάση αυτό, έγινε προσπάθεια να διεξαχθούν τα τρία πειράματα με τις προβλέψεις που προέκυψαν να αποδεικνύονται ιδιαίτερα εντυπωσιακές. Η απόδοση του διαμορφωμένου συνόλου δεδομένων πυρκαγιάς συγκρίθηκε με το γνωστό σύνολο δεδομένων προηγούμενης τεχνολογίας Montesinho προκειμένου να αξιολογηθεί ποιο από τα δύο λειτουργούσε καλύτερα στην εφαρμογή εποπτευόμενων αλγορίθμων Μηχανικής Μάθησης. Τα συγκριτικά αποτελέσματα έδειξαν ότι και για τις 12 μεταβλητές καιρού που εξήχθησαν από το σύνολο δεδομένων πυρκαγιάς, ένα συντονισμένο μοντέλο Τυχαίας Δασικής Πυρκαγιά (70%) ξεπέρασε τα άλλα μοντέλα ταξινόμησης όσον αφορά την ακρίβεια πρόβλεψης της εκδήλωσης πυρκαγιάς. Σε εναλλακτικές υλοποιήσεις για τα καλύτερα 4 και 2 επιλεγμένα χαρακτηριστικά καιρού, αντίστοιχα, το μοντέλο πρόβλεψης Extreme Gradient Boosting (XGBoost) πέτυχε την καλύτερη ακρίβεια (67,4%) όσον αφορά την πρόβλεψη εκδήλωσης πυρκαγιάς και τα νευρωνικά δίκτυα είχαν οριακά καλύτερη απόδοση (63,6%) από το Random Δάσος (63,3%). Όσον αφορά το πρόβλημα της πολλαπλής ταξινόμησης της πρόβλεψης κλίμακας πυρκαγιάς (μικρή πυρκαγιά, μεσαία πυρκαγιά, μεγάλη πυρκαγιά, πυρκαγιά), έδειξε ότι το μοντέλο των Κ-πλησιέστερων γειτόνων εφαρμόστηκε καλύτερα (50%) από τα άλλα μοντέλα πρόβλεψης. Τα ευρήματα για την πρόβλεψη του μεγέθους της καμένης περιοχής των δασικών πυρκαγιών προέκυψαν ότι χρησιμοποιώντας όλες τις μεταβλητές καιρού οι K-πλησιέστεροι γείτονες (τιμή βαθμολογίας r² 70%) ξεπέρασαν τα άλλα μοντέλα παλινδρόμησης ενώ για 4 επιλεγμένα καιρικά χαρακτηριστικά δόθηκαν φτωχά αποτελέσματα από μοντέλα παλινδρόμησης με μόνο τον αλγόριθμο Γραμμικής παλινδρόμησης να εκτελείται καλύτερα από άλλους (τιμή βαθμολογίας r² 2%). Τέλος, έγινε σύγκριση με το γνωστό σύνολο δεδομένων προηγούμενης τεχνικής Montesinho για 4 και 2 επιλεγμένες μεταβλητές καιρού για το πρώτο πείραμα, καθώς και για 4 μεταβλητές καιρού για το τρίτο πείραμα. Τα αποτελέσματα έδειξαν ότι το νέο σύνολο δεδομένων wildfire λειτούργησε πολύ καλύτερα κατά την εφαρμογή των εποπτευόμενων αλγορίθμων Machine Learning.
Number of pages
68Faculty
Σχολή ΜηχανικώνAcademic Department
Τμήμα Ηλεκτρολόγων και Ηλεκτρονικών ΜηχανικώνΤμήμα Μηχανικών Βιομηχανικής Σχεδίασης και Παραγωγής