Ανάπτυξη τεχνικών εκπαίδευσης νευρωνικών δικτύων ακτινικής συνάρτησης βάσης με τον αλγόριθμο Levenberg-Marquardt
Development of radial basis function neural network training techniques based on the Levenberg-Marquardt algorithm
Keywords
Levenberg–Marquardt algorithm ; Ασαφή σύνολα ; Δίκτυα ακτινικής συνάρτησης βάσης ; Μέθοδοι προβολής μεταβλητής ; Τεχνητή νοημοσύνη ; Νευρωνικά δίκτυαAbstract
Η εν λόγω εργασία έχει ως αντικείμενο την ανάπτυξη και αξιολόγηση τεχνικών εκπαίδευσης νευρωνικών δικτύων ακτινικής συνάρτησης βάσης (Radial Basis Function Networks, RBFNs), με γνώμονα την δημιουργία μοντέλων υψηλής απόδοσης και ακρίβειας. Η εκπαίδευση βασίζεται στον αλγόριθμό βελτιστοποίησης Levenberg-Marquardt (LM) με τον οποίον γίνεται ο προσδιορισμός των παραμέτρων του μοντέλου. Συγκεκριμένα, των συναπτικών βαρών, των θέσεων των κέντρων RBF και εάν είναι απαραίτητο, των ευρών των συναρτήσεων βάσης. Δοκιμάσθηκαν δύο εκδοχές της εν λόγω μεθόδου για την δυνατότητα σύγκρισης των αποτελεσμάτων. Στην πρώτη εκδοχή, η κατάτμηση των συνόλων των παραμέτρων του προβλήματος εκπαίδευσης επιτυγχάνεται με γνώμονα τη γραμμικότητά τους. Η απαλοιφή των γραμμικών παραμέτρων και η ανάπτυξη της προβολής της μεταβλητής (Variable Projection,VP) προς τις μη γραμμικές παραμέτρων, εξελίσσεται σε δυο επιμέρους προβλήματα: το μη γραμμικό για την ενημέρωση των κέντρων σε κάθε επανάληψη της LM, καθώς και τον υπολογισμό των βαρών από την επίλυση ενός απλού γραμμικού προβλήματος ελαχίστων τετραγώνων. Στην δεύτερη εκδοχή δεν προηγείται διάσπαση των συνόλων των παραμέτρων, το πρόβλημα είναι πλήρες συναρτησιακό, με τα βάρη να ενημερώνονται παράλληλα με τα κέντρα στις επαναλήψεις του αλγορίθμου LM. Οι αρχικές θέσεις των κέντρων προέρχονται από τον αλγόριθμο των ασαφών μέσων (Fuzzy Means, FM), τα αρχικά βάρη καθορίζονται από την μέθοδο των ελαχίστων τετραγώνων και τα εύρη των συναρτήσεων βάσης υπολογίζονται με την μέθοδο των κ-κοντινότερων γειτόνων. Οι δύο εκδοχές δοκιμάστηκαν σε 12 προσομοιωμένα αλλά και πραγματικά σύνολα δεδομένων της βιβλιογραφίας και συγκρίθηκαν με άλλες μεθόδους εκπαίδευσης νευρωνικών δικτύων. Τα αποτελέσματα και των δύο εκδοχών κρίθηκαν ικανοποιητικά και ανταγωνιστικά σε σύγκριση με των άλλων μεθόδων. Ιδιαίτερα με την εκδοχή VP δημιουργήθηκαν δίκτυα με υψηλότερη ταχύτητα εκπαίδευσης και ταυτόχρονα μικρότερα σε μέγεθος.
Abstract
The purpose of this work is to develop and evaluation techniques for training Radial Basis Function neural networks (RBFNs), focusing on the creation of high performance and accuracy models. Training is performed using the Levenberg-Marquardt (LM) optimization algorithm which is used to define the model parameters. In particular the synaptic weights, the positions of the RBF centers and if it is necessary, the widths of the basis functions. Two versions of such method were tested so that the results can be compared. In the first version, the segmentation of the sets in the training problem parameters is achieved by taking into account whether they are linear. The elimination process for the linear parameters and the development of the Variable Projection (VP) towards the nonlinear parameters evolves into two subproblems. The nonlinear subproblem corresponds to updating the centers at each iteration of LM, while the linear one to calculating the weights by solving a simplified linear least squares’ problem. In the second version where no separation of the parameter sets is preceded, the problem becomes Fully Functional (FF), with the weights being updated along with the centers in the iterations of the LM algorithm. The initial positions of the centers are obtained from the Fuzzy Means (FM) algorithm, the initial weights are determined by the least squares’ method and the widths of the basis functions are computed by the k-nearest neighbors’ algorithm The two versions were tested on 12 simulated and real-world benchmark datasets in the literature and compared with other neural network training methods. The results of both versions were found to be competitive compared to the other methods. Especially the VP version created networks with higher training speed and smaller size.