Προσέγγιση δυαδικής ταξινόμησης για τον εντοπισμό περιπτώσεων παιδικής εκμετάλλευσης σε μηνύματα συνομιλίας με χρήση της πλατφόρμας SPARK

Δερζιώτης, Σταύρος Ανδροκλής

Α binary classification approach for identifying sexual predators in chat messages using SPARK

Μεταπτυχιακή διπλωματική εργασία

Συγγραφέας

Δερζιώτης, Σταύρος Ανδροκλής

Ημερομηνία

2023-06-21

Επιβλέπων

Mamalis, Basilis

Derziotis_20014.pdf (5.631Mb)

Λέξεις-κλειδιά

MlLib ; Classification ; NLP ; SVM ; HDFS ; Grooming ; HADOOP ; SPARK ; Logistic regression ; Sexual predator ; Δυαδική ταξινόμηση ; Imbalanced dataset ; Text classification

Περίληψη

The present thesis challenges the probability of sexual offenders identification in chat messages using machine learning algorithms. Text filtering and pre-processing techniques are emphasized and tests with various classification algorithms of Apache Spark’s MlLib library will be presented. For the implementation, a large-scale data analysis engine (SPARK) was used in collaboration with an HDFS Hadoop Cluster. The dataset used due to the nature of the problem is quite unbalanced so emphasis is placed on the selection of the most qualified evaluation metric to balance the so-called “algorithm bias” towards the weak class.

Περίληψη

Η παρούσα διπλωματική έχει ως σκοπό την χρήση αλγόριθμων μηχανικής μάθησης με στόχο την πιθανή ταυτοποίηση περιπτώσεων παιδεραστίας ή πιθανής εκμετάλλευσης ανηλίκων σε chats μεταξύ χρηστών. Δίνεται έμφαση σε τεχνικές φιλτραρίσματος και προ επεξεργασίας κειμένων και θα παρουσιάζονται δοκιμές με διάφορους αλγόριθμούς ταξινόμησης της βιβλιοθήκης SPARK’s MLLib. Για την υλοποίηση δημιουργήθηκε συστοιχία υπολογιστών (cluster) με HDFS σύστημα αρχείων (HADOOP) και μηχανή ανάλυσης δεδομένων μεγάλης κλίμακας (SPARK) Το υλικό (Dataset) που χρησιμοποιείται λόγω της φύσης του προβλήματος είναι αρκετά μη ισορροπημένο επομένως δίνεται έμφαση στις καταλληλότερες μετρικές αξιολόγησης ώστε να εξισορροπήσει την λεγόμενη «προκατάληψη των αλγορίθμων» ως προς την αδύναμη κλάση.

Αριθμός σελίδων

100

Σχολή

Σχολή Μηχανικών

Ακαδημαϊκό Τμήμα

Τμήμα Μηχανικών Πληροφορικής και Υπολογιστών

Τίτλος Προγράμματος Μεταπτυχιακών Σπουδών

Επιστήμη και Τεχνολογία της Πληροφορικής και των Υπολογιστών

Γλώσσα

Ελληνικά

URI

https://polynoe.lib.uniwa.gr/xmlui/handle/11400/4548
http://dx.doi.org/10.26265/polynoe-4386

Συλλογή

Μεταπτυχιακές διπλωματικές εργασίες - Επιστήμη και Τεχνολογία της Πληροφορικής και των Υπολογιστών

Εμφάνιση πλήρους εγγραφής

Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές

Εκτός από όπου επισημαίνεται κάτι διαφορετικό, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές