Τεχνικές υπολογιστικής νοημοσύνης στο φιλτράρισμα ανεπιθύμητων μηνυμάτων ηλεκτρονικού ταχυδρομείου
Computational intelligence techniques in email spam filtering

Διπλωματική εργασία
Συγγραφέας
Πάνο, Κωνσταντίνα
Ημερομηνία
2025-02-27Επιβλέπων
Koulouras, GrigoriosΛέξεις-κλειδιά
Ανεπιθύμητα μηνύματα ; Επιθυμητά μηνύματα ; Ηλεκτρονικό ταχυδρομείο ; Αλγόριθμοι ταξινόμησης ; Νευρωνικά δίκτυα ; Εξελικτικοί αλγόριθμοι ; Ακρίβεια ταξινόμησης ; Spam email ; Ham email ; Classification algorithms ; Neural networks ; Evolutionary algorithms ; Bag-of-Words ; Classification accuracy ; False positive/ negative rate ; Spam precision/ recallΠερίληψη
Η Διπλωματική Εργασία (ΔΕ) με τίτλο "Τεχνικές Υπολογιστικής Νοημοσύνης στο Φιλτράρισμα Ανεπιθύμητων Μηνυμάτων Ηλεκτρονικού Ταχυδρομείου" εστιάζει στη χρήση τεχνικών υπολογιστικής νοημοσύνης για τον εντοπισμό και την αντιμετώπιση των ανεπιθύμητων μηνυμάτων ηλεκτρονικού ταχυδρομείου (spam). Η ανεξέλεγκτη αποστολή spam μηνυμάτων αποτελεί σημαντικό πρόβλημα τόσο για τους χρήστες όσο και για τις υποδομές των παρόχων υπηρεσιών email. Σκοπός της εργασίας είναι να εξετάσει και να συγκρίνει σύγχρονες μεθόδους τεχνητής νοημοσύνης, όπως μηχανική μάθηση, νευρωνικά δίκτυα και εξελικτικούς αλγόριθμους, για την αποτελεσματική ανίχνευση και φιλτράρισμα των spam. Αρχικά, θα παρουσιαστούν οι βασικές αρχές των ανεπιθύμητων μηνυμάτων και τα χαρακτηριστικά που τα διακρίνουν από τα κανονικά μηνύματα. Στη συνέχεια, θα αναλυθούν οι κλασσικές τεχνικές φιλτραρίσματος, όπως τα φίλτρα βασισμένα σε κανόνες και τα στατιστικά μοντέλα. Η εργασία θα εστιάσει κυρίως στη χρήση πιο προχωρημένων τεχνικών, όπως τα νευρωνικά δίκτυα (MLP, CNN, LSTM), οι αλγόριθμοι ταξινόμησης (SVM, Naive Bayes) και οι εξελικτικοί αλγόριθμοι (PSO,SCA), και θα εξετάσει τον τρόπο με τον οποίο μπορούν να βελτιώσουν την ακρίβεια και την ταχύτητα της διαδικασίας φιλτραρίσματος. Επιπλέον, θα γίνει ανάλυση των πλεονεκτημάτων και των μειονεκτημάτων της κάθε προσέγγισης και θα συζητηθούν οι προκλήσεις που αφορούν στη διαρκή εξέλιξη των spam μηνυμάτων και την ανάγκη προσαρμογής των φίλτρων στις νέες μεθόδους παραπλάνησης των spammer. Η ΔΕ θα περιλαμβάνει επίσης πειραματικά αποτελέσματα από την εφαρμογή των εν λόγω τεχνικών, τα οποία θα δείχνουν την αποτελεσματικότητά τους στην πράξη. Τέλος, θα παρουσιαστούν δύο καινοτόμα μοντέλα τα οποία αποτελούν το καθένα συνδυασμό των τριών πιο αποτελεσματικών τεχνικών υπολογιστικής νοημοσύνης, με βάση τα πειραματικά δεδομένα που προέκυψαν. Ως επιπρόσθετη γνώση, θα χρησιμοποιηθεί προσωπικός λογαριασμός Gmail που θα εφαρμοστεί στους κώδικες των προαναφερθέντων υβριδικών μεθόδων, για την αξιολόγηση της λειτουργία τους σε πραγματικά δεδομένα. Επιπρόσθετα, θα αξιοποιηθεί και η τεχνική φιλτραρίσματος ανεπιθύμητων μηνυμάτων βασισμένη στο περιεχόμενο του ηλεκτρονικού ταχυδρομείου σε συνδυασμό με τα δύο καινοτόμα υβριδικά μοντέλα, με βάση τον λογαριασμό Gmail, για τον ίδιο σκοπό που αναφέρθηκε και στην προηγούμενη πρόταση.
Περίληψη
The thesis titled "Computational Intelligence Techniques in Email Spam Filtering" focuses on the use of computational intelligence techniques to detect and address spam emails. The uncontrolled sending of spam messages is a significant problem for both users and the infrastructure of email service providers. The purpose of this thesis is to examine and compare modern artificial intelligence methods, such as machine learning, neural networks, and evolutionary algorithms, for the effective detection and filtering of spam. Initially, the basic principles of spam emails and the characteristics that distinguish them from regular emails will be presented. Then, classical filtering techniques, such as rule-based filters and statistical models, will be analysed. The thesis will primarily focus on the use of more advanced techniques, such as neural networks (MLP, CNN, LSTM), classification algorithms (SVM, Naive Bayes), and evolutionary algorithms (PSO, SCA), and will examine how they can improve the accuracy and speed of the filtering process. Furthermore, an analysis of the advantages and disadvantages of each approach will be conducted, and the challenges concerning the ongoing evolution of spam messages and the need for filters to adapt to new spamming techniques will be discussed. The thesis will also include experimental results from the application of these techniques, demonstrating their effectiveness in practice. Finally, two innovative models will be presented, each constituting a combination of the three most effective computational intelligence techniques based on the experimental data obtained. Additionally, a personal Gmail account will be used as supplementary knowledge, which will be applied to the codes of the hybrid models mentioned earlier, in order to evaluate their performance based on real-time data. Moreover, the content-based spam email filtering technique will be utilised in combination with the two innovative hybrid models, based on the Gmail account, for the same purpose as mentioned in the previous sentence.