Προσέγγιση δυαδικής ταξινόμησης για τον εντοπισμό περιπτώσεων παιδικής εκμετάλλευσης σε μηνύματα συνομιλίας με χρήση της πλατφόρμας SPARK
Α binary classification approach for identifying sexual predators in chat messages using SPARK
Μεταπτυχιακή διπλωματική εργασία
Author
Δερζιώτης, Σταύρος Ανδροκλής
Date
2023-06-21Advisor
Mamalis, BasilisKeywords
MlLib ; Classification ; NLP ; SVM ; HDFS ; Grooming ; HADOOP ; SPARK ; Logistic regression ; Sexual predator ; Δυαδική ταξινόμηση ; Imbalanced dataset ; Text classificationAbstract
The present thesis challenges the probability of sexual offenders identification in chat messages using machine learning algorithms. Text filtering and pre-processing techniques are emphasized and tests with various classification algorithms of Apache Spark’s MlLib library will be presented. For the implementation, a large-scale data analysis engine (SPARK) was used in collaboration with an HDFS Hadoop Cluster. The dataset used due to the nature of the problem is quite unbalanced so emphasis is placed on the selection of the most qualified evaluation metric to balance the so-called “algorithm bias” towards the weak class.
Abstract
Η παρούσα διπλωματική έχει ως σκοπό την χρήση αλγόριθμων μηχανικής μάθησης με στόχο την πιθανή ταυτοποίηση περιπτώσεων παιδεραστίας ή πιθανής εκμετάλλευσης ανηλίκων σε chats μεταξύ χρηστών. Δίνεται έμφαση σε τεχνικές φιλτραρίσματος και προ επεξεργασίας κειμένων και θα παρουσιάζονται δοκιμές με διάφορους αλγόριθμούς ταξινόμησης της βιβλιοθήκης SPARK’s MLLib.
Για την υλοποίηση δημιουργήθηκε συστοιχία υπολογιστών (cluster) με HDFS σύστημα αρχείων (HADOOP) και μηχανή ανάλυσης δεδομένων μεγάλης κλίμακας (SPARK)
Το υλικό (Dataset) που χρησιμοποιείται λόγω της φύσης του προβλήματος είναι αρκετά μη ισορροπημένο επομένως δίνεται έμφαση στις καταλληλότερες μετρικές αξιολόγησης ώστε να εξισορροπήσει την λεγόμενη «προκατάληψη των αλγορίθμων» ως προς την αδύναμη κλάση.