Ανάπτυξη επιβλεπόμενων και μη επιβλεπόμενων μεθόδων μηχανικής μάθησης για την μοντελοποίηση χρονικά εξελισσόμενων συστημάτων με εφαρμογές σε έξυπνα ηλεκτρικά δίκτυα
A machine learning perspective of supervised and unsupervised methods for modelling time evolving systems with applications in smart grids
Λέξεις-κλειδιά
Επιβλεπόμενη μάθηση ; Μη επιβλεπόμενη μάθηση ; Αραιή αναπαράσταση ; Πρόβλεψη μικτού φορτίου ; Νευρωνικά δίκτυα γράφων ; Γράφοι ορατότητας ; Εκμάθηση ανσάμπλ ; Υπολογιστική νοημοσύνη ; Μηχανική μάθηση ; Έξυπνα δίκτυα ; Ηλεκτρική ενέργεια ; Supervised learning ; Ensemble learning ; Unsupervised learningΠερίληψη
Η παρούσα διδακτορική διατριβή (Δ.Δ.) άπτεται της μελέτης των χρονικά εξελισσόμενων συστημάτων με σκοπό την ανάπτυξη μεθοδολογιών για την μοντελοποίησή τους και κατ’ επέκταση την χρήση τους στο πρόβλημα της πρόβλεψης της κατανάλωσης του ηλεκτρικού φορτίου από υποσταθμούς μέσης και υψηλής τάσης. Η λειτουργία τους βασίζεται στην αλγοριθμική προσαρμογή της σχέσης που περιγράφει την είσοδο και την έξοδο των δεδομένων αυτών σε μορφή χρονικών ακολουθιών ή χρονοσειρών. Βασικός σκοπός της διδακτορικής διατριβής είναι να προτείνει και να διερευνήσει την εφαρμογή νέων μεθόδων μηχανικής μάθησης με και χωρίς επίβλεψη για την πρόβλεψη χαρακτηριστικών από χρονοσειρές. Κατά συνέπεια, ένα σημαντικό τμήμα του θεωρητικού μέρους της εργασίας καταλαμβάνει η ανάλυση χρονοσειρών ως εργαλείο της μοντελοποίησης χρονικά εξελισσόμενων συστημάτων και η μελέτη της πρόβλεψης χρονοσειρών. Στη συνέχεια διεξάγεται μια ενδελεχής βιβλιογραφική ανασκόπηση σχετικά με τις μεθόδους που έχουν προταθεί για την πρόβλεψη του ηλεκτρικού φορτίου. Μέσα από αυτή αναδεικνύονται συγκεκριμένα ερευνητικά κενά που προκύπτουν κατά την διερεύνηση του ανωτέρω προβλήματος. Αρχικά, παρατηρείται ότι παρά το γεγονός ότι ένας μεγάλος αριθμός μεθοδολογιών μηχανικής μάθησης (Μ.Μ.) έχει προταθεί για την πρόβλεψη του ηλεκτρικού φορτίου, εντούτοις καμία από αυτές δεν δύναται να υπερέχει όλων των υπολοίπων. Αυτό οφείλεται κυρίως στη ύπαρξη μη γραμμικότητας και τις διαφορετικές στοχαστικές ιδιότητες που χαρακτηρίζουν τις χρονοσειρές κατανάλωσης του ηλεκτρικού φορτίου. Ένας επιπλέον παράγοντας που επιδεινώνει τα χαρακτηριστικά αυτά προέρχεται από το νέο μοντέλο δικτύου που επιβάλλει η μετάβαση από τα συμβατικά στα λεγόμενα έξυπνα δίκτυα (smart grids). Σαν αποτέλεσμα, το περιβάλλον του έξυπνου δικτύου εισάγει την αμφίδρομη ροή ισχύος ανάμεσα στους χρήστες και στο δίκτυο κοινής ωφέλειας, με αποτέλεσμα τα δεδομένα του φορτίου να περιέχουν μετρήσεις παραγωγής και κατανάλωσης, και οι χρονοσειρές του μικτού φορτίου όπως ονομάζεται, να παρουσιάζουν υψηλή αβεβαιότητα. Κρίνεται λοιπόν αναγκαία, η αναζήτηση πρωτοπόρων και εύρωστων μεθόδων Μ.Μ. ικανών να αντιμετωπίσουν αποτελεσματικά τα προαναφερθέντα φαινόμενα και να επιδείξουν καθολική υπεροχή έναντι άλλων ανταγωνιστικών. Μια ακόμη έλλειψη που εντοπίστηκε ήταν η απουσία ενασχόλησης με την πρόβλεψη του μικτού φορτίου, σε αντίθεση με την εκτεταμένη μελέτη της πρόβλεψης της παραγωγής ή της κατανάλωσης ηλεκτρικής ενέργειας μεμονωμένα. Με βάση τις επισημάνσεις αυτές, προτάθηκε η ανάπτυξη τριών νέων μεθόδων πρόβλεψης. Η πρώτη εξ αυτών βασίζεται στην θεωρία της αραιής αναπαράστασης (sparse representation - SR) και της εκμάθησης λεξικού (dictionary learning), με κύρια πρόταση την ενσωμάτωση των ατόμων και των αντιστοίχων αραιών συντελεστών σε μια ιεραρχική - δενδροειδή δομή. Η ανωτερότητα της προτεινόμενης μεθόδου έγκυται στη χαμηλή της πολυπλοκότητα και στην εγγενή της ικανότητα να αναπαριστά αποδοτικά τα μη γραμμικά χαρακτηριστικά του μικτού φορτίου, παραμένοντας ανθεκτική σε φαινόμενα υπερπροσαρμογής. Η επόμενη μεθοδολογία που προτείνεται αφορά σε ένα ανσάμπλ μοντέλο το οποίο εκπαιδεύεται από διάφορες μεθόδους Μ.Μ. Συγκεκριμένα συνδυάζονται τεχνικές από: τεχνητά νευρωνικά δίκτυα (Τ.Ν.Δ), γραμμική παλινδρόμηση (ΓΠ), παλινδρόμηση με χρήση διανυσμάτων υποστήριξης (support vector regression – SVR), τυχαία δάση (random forests – RF) και αραιή αναπαράσταση. Οι τελικές τιμές πρόβλεψης υπολογίζονται με τη βοήθεια ενός online μηχανισμού απόφασης που βασίζεται στη στάθμιση των υπο-μοντέλων σύμφωνα με την πρότερη απόδοσή τους. Το σύνολο των προτεινόμενων μεθοδολογιών πρόβλεψης ολοκληρώνεται με ένα μοντέλο νευρωνικών δικτύων Γράφων (Graph neural networks - GNN), το οποίο ενισχύεται με τις ιδιότητες των Γράφων ορατότητας (Visibility graphs). Σύμφωνα με την προσσέγγιση αυτή, η οποία αποκαλείται νευρωνικό δίκτυο Γράφων ορατότητας (Visibility graph neural network - VGNN), οι χρονοσειρές του μικτού φορτίου μετασχηματίζονται σε ένα μη κατευθυντικό Γράφο χρησιμοποιώντας το κριτήριο της φυσικής ορατότητας μεταξύ των κόμβων ενός Γράφου και στη συνέχεια χρησιμοποιείται ένας πίνακας γειτνίασης για την εκπαίδευση ενός GNN. Επόμενο βήμα αποτέλεσε η αξιολόγηση των προτεινόμενων μεθόδων. Το πεδίο εφαρμογής για την πειραματική δοκιμή τους αντλείται από τον τομέα των έξυπνων δικτύων (smart grids). Συγκεκριμένα, προτάθηκε η πρόβλεψη του μικτού ηλεκτρικού φορτίου με χρήση πραγματικών δεδομένων από υποσταθμό (Υ/Σ) υψηλής και μέσης τάσης (ΥΤ/ΜΤ). Ύστερα από την αναλυτική εισαγωγή στα έξυπνα δίκτυα και την ουσιώδη συμβολή τους στην πρόβλεψη του φορτίου και κατ’ επέκταση στην αποδοτική λειτουργία τους, ακολουθεί η περιγραφή του πειραματικού πρωτοκόλλου των προαναφερθέντων προσομοιώσεων. Σύμφωνα με τα παραγόμενα αποτελέσματα οι προτεινόμενες μεθοδολογίες Μ.Μ. καταφέρνουν να παρέχουν αξιόπιστες, εύρωστες και ακριβείς προβλέψεις για περιπτώσεις διαφορετικών χρονικών οριζόντων πρόβλεψης που κυμαίνονται από 15 λεπτά έως 24 ώρες αλλά και διαφορετικών σεναρίων εκτέλεσης που αφορούν δεδομένα τα οποία εκτείνονται σε περιόδους ιδιότυπων μοτίβων κατανάλωσης.
Περίληψη
The present doctoral thesis concerns the study of time evolving systems with the aim of developing methodologies for their modeling and, their consequent use in the problem of forecasting the consumption of electrical load from medium and high voltage substations. Their operation is based on the algorithmic adaptation of the relationship that describes the input and output data in the form of time sequences or time series. The main purpose of this doctoral thesis is to propose and investigate the application of new supervised and unsupervised machine learning methods for prediction of features extracted from time series. Consequently, an important part of the theoretical section of this work is occupied by time series analysis as a tool for modeling of time evolving systems and the study of time series forecasting. A thorough literature review is then conducted on the methods that have been proposed for electric load forecasting, through which, specific research gaps that arise during the investigation of the above problem are highlighted. Initially, it is observed that despite the fact that a large number of machine learning methodologies have been proposed for the prediction of electrical load, however, none of them can outperform all the rest. This is mainly due to the existence of non-linearity and the different stochastic properties that characterize the time series of electric load consumption. An additional factor that worsens these characteristics stems from the new electrical grid paradigm imposed by the transition from conventional to so-called smart grids. As a result, the smart grid environment introduces two-way power flow between users and the utility grid, resulting in the load data containing both production and consumption measurements, and the so-called mixed load time series exhibiting high amount of uncertainty. It is therefore deemed necessary to search for novel and robust machine learning methods, able to effectively deal with the aforementioned phenomena and demonstrate global superiority over other competitors. Another shortcoming that has been identified is the scant consideration of mixed load forecasting, as opposed to the extensive study of forecasting electricity generation or consumption individually. Based on these observations, the development of three new forecasting methods is proposed. The first of these is based on the theory of sparse representation and dictionary learning, with its main proposition being the integration of the atoms and the corresponding sparse coefficients in a hierarchical tree structure. The superiority of the proposed method lies in its low complexity and its inherent ability to efficiently represent the nonlinear characteristics of the mixed load while remaining robust to overfitting effects. The next methodology that is introduced concerns an ensemble model which is trained by various machine learning methods. Specifically, techniques from: artificial neural networks, linear regression, support vector regression, random forests and sparse representation are combined. The final predicted values are calculated with the use of an online decision mechanism based on the weighting of the sub-models according to their past performance. The set of proposed forecasting methodologies is completed with a GNN model, which is enhanced with the properties of Visibility graphs. According to this approach, which is called a Visibility graph neural network (VGNN), the mixed load time series is transformed into an undirected graph using the criterion of natural visibility between the nodes of a graph, and then an adjacency matrix is employed for training a GNN. The next step was the evaluation of the proposed methods. The scope for their experimental testing is drawn from the field of smart grids. Specifically, the mixed electric load forecasting is taking place, using real data from a high and medium voltage substation. After the detailed introduction to smart grids and their essential contribution to load forecasting and, furtherly, to their efficient operation, follows the description of the experimental protocol of the aforementioned simulations. According to the obtained results, the proposed machine learning methodologies manage to provide reliable, robust and accurate forecasts for cases of different forecast time horizons ranging from 15 minutes to 24 hours ahead but also different execution scenarios involving data spanning periods of idiosyncratic consumption patterns.