Ανάπτυξη μεθόδων εκπαίδευσης αναδρομικών νευρωνικών δικτύων
Development of training methods for recurrent neural networks
Λέξεις-κλειδιά
Αλγόριθμοι μηχανικής μάθησης ; Αναδρομικά νευρωνικά δίκτυα ; Πρόβλεψη χρονοσειρών ; Ενεργειακή κατανάλωση κτιρίων ; LSTM ; GRU ; Machine learning algorithms ; Recurrent neural network ; Time series forecasting ; Building energy consumptionΠερίληψη
Αντικείμενο της παρούσας διπλωματικής είναι η ανάπτυξη μεθοδολογιών μηχανικής μάθησης, επικεντρώνοντας σε αρχιτεκτονικές νευρωνικών δικτύων ειδικά προσαρμοσμένες στα μοναδικά χαρακτηριστικά του προβλήματος πρόβλεψης μελλοντικών τιμών μη γραμμικών χρονοσειρών. Ιδιαίτερη έμφαση δίνεται στο σχεδιασμό και την εφαρμογή αναδρομικών νευρωνικών δικτύων λόγω της ικανότητάς τους να διαχειρίζονται ακολουθιακά ιστορικά δεδομένα αλλά και να αντιλαμβάνονται τις σύνθετες χρονικές τους εξαρτήσεις. Η έρευνα ξεκινά με την ανάπτυξη ενός απλού αναδρομικού δικτύου που εκπαιδεύεται μέσω του αλγορίθμου οπισθοδιάδοσης στο χρόνο προκειμένου να πραγματοποιηθεί σύγκριση με τα εξελιγμένα μοντέλα που διατίθενται σε καθιερωμένες βιβλιοθήκες. Στη συνέχεια, αναλύονται οι ειδικές περιπτώσεις των μοντέλων Long Short-Term Memory (LSTM) και Gated Recurrent Unit (GRU) λόγω της ικανότητας αντιμετώπισης συγκεκριμένων προβλημάτων που δημιουργούνται κατά την εκπαίδευση αναδρομικών δικτύων. Τα μοντέλα εφαρμόστηκαν σε δυο απαιτητικές εφαρμογές χρονοσειρών, όπου αναλύθηκε το πρόβλημα πρόβλεψης του επόμενου χρονικού βήματος (Single Step Prediction) αλλά και το πρόβλημα πρόβλεψης μελλοντικής ακολουθίας βημάτων (Multi Step Prediction). Πιο συγκεκριμένα, πρώτα πραγματοποιήθηκε ο έλεγχος της ορθής λειτουργίας όλων των μοντέλων μέσω των συνθετικών δεδομένων της χαοτικής συνάρτησης Mackey – Glass, ενώ στη συνέχεια ακολούθησε εφαρμογή στην πρόβλεψη μελλοντικών τιμών κατανάλωσης ενέργειας ενός δημοσίου κτηρίου. Για λόγους σύγκρισης χρησιμοποιήθηκαν επίσης η γραμμική μέθοδος των ελαχίστων τετραγώνων και τα νευρωνικά δίκτυα τροφοδότησης πολλών επιπέδων (MLP). Σε κάθε περίπτωση, τα αποτελέσματα ανέδειξαν την υπεροχή των αναδρομικών νευρωνικών δικτύων στα προβλήματα πρόβλεψης χρονοσειρών, ενώ το μοντέλο GRU υπερείχε βάσει αποτελεσμάτων έναντι των υπολοίπων τεχνικών.
Περίληψη
The subject of this thesis is the development of machine learning methodologies, focusing on neural network architectures specifically adapted to the unique characteristics of the problem of predicting future values of non-linear time series. Particular emphasis is placed on the design and implementation of recurrent neural networks due to their ability to handle sequential historical data but also to understand their complex temporal dependencies. The research begins with the development of a simple recurrent network that is trained through the backpropagation through time algorithm in order to perform a comparison with the sophisticated models available in established libraries. The special cases of Long Short-Term Memory (LSTM) and Gated Recurrent Unit (GRU) models are then analyzed due to their ability to deal with specific problems created when training recurrent networks. The models were applied to two demanding time series applications, where the problem of predicting the next time step (Single Step Prediction) and the problem of predicting a future sequence of steps (Multi Step Prediction) were analyzed. More specifically, the correct operation of all models was checked through the synthetic data of the chaotic Mackey-Glass function, while they were then applied to the prediction of future energy consumption values of a public building problem. Linear least squares and multi-layer neural networks (MLP) were also used for comparison. In any case, the results highlighted the superiority of recurrent neural networks in time series forecasting problems, while the GRU model outperformed the rest of the techniques based on the results.