Σύνολα Δεδομένων και Δοκιμές για Συστήματα Ανίχνευσης Εισβολών
Datasets and Testing for Intrusion Detection Systems - IDSs
Μεταπτυχιακή διπλωματική εργασία
Author
Δεληγιαννίδης, Ιωάννης
Date
2021-07-13Advisor
Kantzavelou, IoannaKeywords
Intrusion Detection System ; IDS ; DatasetAbstract
Ένα από τα πλέον σημαντικά και ιδιαίτερα θέματα που έχουν ανακύψει με την ραγδαία ανάπτυξη των ηλεκτρονικών υπολογιστών, εφαρμογών και δικτύων, ασύρματων και ενσύρματων, είναι η παράλληλη ανάπτυξη αποτελεσματικών συστημάτων ανίχνευσης εισβολών (IDS) με κατάλληλα και αποτελεσματικά σύνολα δεδομένων, για την διασφάλιση της ασφάλειας σε εμπιστευτικότητα, διαθεσιμότητα και ακεραιότητα των δεδομένων και διαδικασιών τόσο από εξωτερικές όσο και από εσωτερικές επιθέσεις. Οι προσπάθειες ανάπτυξης τέτοιων συστημάτων ξεκίνησαν το 1987 ως μία δεύτερη γραμμή άμυνας.
Για την επίτευξη του στόχου αυτού συνεχώς γίνεται προσπάθεια να αναπτυχθούν διάφοροι μηχανισμοί ανίχνευσης εισβολών – επιθέσεων, χρησιμοποιώντας μεθόδους που εντάσσονται στο ευρύτερο πεδίο της εξόρυξης γνώσης από δεδομένα μέσω μηχανικής μάθησης. Στο πλαίσιο αυτό πραγματοποιείται πλήθος διαρκών και επίπονων δοκιμών σε σύνολα δεδομένων κατασκευασμένα για το σκοπό αυτό, τα οποία θα πρέπει να είναι ενημερωμένα και επικαιροποιημένα με τους τελευταίους τύπους επιθέσεων. Τέτοια σύνολα δεδομένων είναι τα DARPA98, KDD99, NSL-KDD, ISC2012, ADFA13, CAIDA (2011), ICSI κ.α.
Σκοπός της παρούσας εργασίας είναι η ανάδειξη των προβλημάτων που δημιουργούνται από τα σύνολα δεδομένων κατά τη δοκιμή IDSs και των μειονεκτημάτων που συνεπάγεται η ύπαρξη και η εκδήλωση αυτών των προβλημάτων, μετά από ενδελεχή έρευνα και μελέτη στα περισσότερο δημοφιλών και επεξεργασμένων δημόσιων συνόλων δεδομένων.
Προσδιορίσθηκαν τα προβλήματα που παρατηρούνται στα σύνολα δεδομένων και πως αυτά περιορίζουν την αποτελεσματικότητα των συστημάτων ανίχνευσης εισβολών.
Στη συνέχεια προτείνονται λύσεις των προαναφερόμενων προβλημάτων και επισημαίνονται πεδία που χρήζουν περαιτέρω διερεύνησης και τέλος παρουσιάζονται τα συμπεράσματα της παρούσας εργασίας.
Abstract
One of the most important and particular issues that have arisen with the rapid development of computers, applications and networks, wireless and Wired, is the parallel development of effective intrusion detection systems (IDS) with appropriate and effective data sets, to ensure security in confidentiality, availability and integrity of data and processes from both external and internal attacks. Efforts to develop such systems began in 1987 as a second line of Defense.
In order to achieve this goal, various intrusion – attack detection mechanisms are constantly being developed, using methods that are part of the wider field of knowledge extraction from data through machine learning. In this context, a number of constant and painstaking tests are carried out on datasets built for this purpose, which should be up to date and up to date with the latest types of attacks. Such data sets are DARPA98, KDD99, NSL-KDD, ISC2012, ADFA13, CAIDA (2011), ICSI, etc.
The purpose of this paper is to highlight the problems created by datasets during the IDSs test and the disadvantages involved in the existence and manifestation of these problems, after thorough research and study in the most popular and processed public datasets.
The problems observed in data sets and how these limit the effectiveness of intrusion detection systems were identified.
Then proposed solutions of the aforementioned problems and highlighted fields that need further investigation and finally presented the conclusions of this paper.