Show simple item record

Προσέγγιση δυαδικής ταξινόμησης για τον εντοπισμό περιπτώσεων παιδικής εκμετάλλευσης σε μηνύματα συνομιλίας με χρήση της πλατφόρμας SPARK

dc.contributor.advisorMamalis, Basilis
dc.contributor.authorΔερζιώτης, Σταύρος Ανδροκλής
dc.date.accessioned2023-06-28T11:08:43Z
dc.date.available2023-06-28T11:08:43Z
dc.date.issued2023-06-21
dc.identifier.urihttps://polynoe.lib.uniwa.gr/xmlui/handle/11400/4548
dc.identifier.urihttp://dx.doi.org/10.26265/polynoe-4386
dc.description.abstractThe present thesis challenges the probability of sexual offenders identification in chat messages using machine learning algorithms. Text filtering and pre-processing techniques are emphasized and tests with various classification algorithms of Apache Spark’s MlLib library will be presented. For the implementation, a large-scale data analysis engine (SPARK) was used in collaboration with an HDFS Hadoop Cluster. The dataset used due to the nature of the problem is quite unbalanced so emphasis is placed on the selection of the most qualified evaluation metric to balance the so-called “algorithm bias” towards the weak class.el
dc.format.extent100el
dc.language.isoelel
dc.publisherΠανεπιστήμιο Δυτικής Αττικήςel
dc.rightsΑναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές*
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Διεθνές*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/*
dc.subjectMlLibel
dc.subjectClassificationel
dc.subjectNLPel
dc.subjectSVMel
dc.subjectHDFSel
dc.subjectGroomingel
dc.subjectHADOOPel
dc.subjectSPARKel
dc.subjectLogistic regressionel
dc.subjectSexual predatorel
dc.subjectΔυαδική ταξινόμησηel
dc.subjectImbalanced datasetel
dc.subjectText classificationel
dc.titleΠροσέγγιση δυαδικής ταξινόμησης για τον εντοπισμό περιπτώσεων παιδικής εκμετάλλευσης σε μηνύματα συνομιλίας με χρήση της πλατφόρμας SPARKel
dc.title.alternativeΑ binary classification approach for identifying sexual predators in chat messages using SPARKel
dc.typeΜεταπτυχιακή διπλωματική εργασίαel
dc.contributor.committeeKarkazis, Panagiotis
dc.contributor.committeeKantzavelou, Ioanna
dc.contributor.facultyΣχολή Μηχανικώνel
dc.contributor.departmentΤμήμα Μηχανικών Πληροφορικής και Υπολογιστώνel
dc.contributor.masterΕπιστήμη και Τεχνολογία της Πληροφορικής και των Υπολογιστώνel
dc.description.abstracttranslatedΗ παρούσα διπλωματική έχει ως σκοπό την χρήση αλγόριθμων μηχανικής μάθησης με στόχο την πιθανή ταυτοποίηση περιπτώσεων παιδεραστίας ή πιθανής εκμετάλλευσης ανηλίκων σε chats μεταξύ χρηστών. Δίνεται έμφαση σε τεχνικές φιλτραρίσματος και προ επεξεργασίας κειμένων και θα παρουσιάζονται δοκιμές με διάφορους αλγόριθμούς ταξινόμησης της βιβλιοθήκης SPARK’s MLLib. Για την υλοποίηση δημιουργήθηκε συστοιχία υπολογιστών (cluster) με HDFS σύστημα αρχείων (HADOOP) και μηχανή ανάλυσης δεδομένων μεγάλης κλίμακας (SPARK) Το υλικό (Dataset) που χρησιμοποιείται λόγω της φύσης του προβλήματος είναι αρκετά μη ισορροπημένο επομένως δίνεται έμφαση στις καταλληλότερες μετρικές αξιολόγησης ώστε να εξισορροπήσει την λεγόμενη «προκατάληψη των αλγορίθμων» ως προς την αδύναμη κλάση.el


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές
Except where otherwise noted, this item's license is described as
Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές