Προσέγγιση δυαδικής ταξινόμησης για τον εντοπισμό περιπτώσεων παιδικής εκμετάλλευσης σε μηνύματα συνομιλίας με χρήση της πλατφόρμας SPARK

Δερζιώτης, Σταύρος Ανδροκλής

dc.contributor.advisor	Mamalis, Basilis
dc.contributor.author	Δερζιώτης, Σταύρος Ανδροκλής
dc.date.accessioned	2023-06-28T11:08:43Z
dc.date.available	2023-06-28T11:08:43Z
dc.date.issued	2023-06-21
dc.identifier.uri	https://polynoe.lib.uniwa.gr/xmlui/handle/11400/4548
dc.identifier.uri	http://dx.doi.org/10.26265/polynoe-4386
dc.description.abstract	The present thesis challenges the probability of sexual offenders identification in chat messages using machine learning algorithms. Text filtering and pre-processing techniques are emphasized and tests with various classification algorithms of Apache Spark’s MlLib library will be presented. For the implementation, a large-scale data analysis engine (SPARK) was used in collaboration with an HDFS Hadoop Cluster. The dataset used due to the nature of the problem is quite unbalanced so emphasis is placed on the selection of the most qualified evaluation metric to balance the so-called “algorithm bias” towards the weak class.	el
dc.format.extent	100	el
dc.language.iso	el	el
dc.publisher	Πανεπιστήμιο Δυτικής Αττικής	el
dc.rights	Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές	*
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/	*
dc.subject	MlLib	el
dc.subject	Classification	el
dc.subject	NLP	el
dc.subject	SVM	el
dc.subject	HDFS	el
dc.subject	Grooming	el
dc.subject	HADOOP	el
dc.subject	SPARK	el
dc.subject	Logistic regression	el
dc.subject	Sexual predator	el
dc.subject	Δυαδική ταξινόμηση	el
dc.subject	Imbalanced dataset	el
dc.subject	Text classification	el
dc.title	Προσέγγιση δυαδικής ταξινόμησης για τον εντοπισμό περιπτώσεων παιδικής εκμετάλλευσης σε μηνύματα συνομιλίας με χρήση της πλατφόρμας SPARK	el
dc.title.alternative	Α binary classification approach for identifying sexual predators in chat messages using SPARK	el
dc.type	Μεταπτυχιακή διπλωματική εργασία	el
dc.contributor.committee	Karkazis, Panagiotis
dc.contributor.committee	Kantzavelou, Ioanna
dc.contributor.faculty	Σχολή Μηχανικών	el
dc.contributor.department	Τμήμα Μηχανικών Πληροφορικής και Υπολογιστών	el
dc.contributor.master	Επιστήμη και Τεχνολογία της Πληροφορικής και των Υπολογιστών	el
dc.description.abstracttranslated	Η παρούσα διπλωματική έχει ως σκοπό την χρήση αλγόριθμων μηχανικής μάθησης με στόχο την πιθανή ταυτοποίηση περιπτώσεων παιδεραστίας ή πιθανής εκμετάλλευσης ανηλίκων σε chats μεταξύ χρηστών. Δίνεται έμφαση σε τεχνικές φιλτραρίσματος και προ επεξεργασίας κειμένων και θα παρουσιάζονται δοκιμές με διάφορους αλγόριθμούς ταξινόμησης της βιβλιοθήκης SPARK’s MLLib. Για την υλοποίηση δημιουργήθηκε συστοιχία υπολογιστών (cluster) με HDFS σύστημα αρχείων (HADOOP) και μηχανή ανάλυσης δεδομένων μεγάλης κλίμακας (SPARK) Το υλικό (Dataset) που χρησιμοποιείται λόγω της φύσης του προβλήματος είναι αρκετά μη ισορροπημένο επομένως δίνεται έμφαση στις καταλληλότερες μετρικές αξιολόγησης ώστε να εξισορροπήσει την λεγόμενη «προκατάληψη των αλγορίθμων» ως προς την αδύναμη κλάση.	el

Αρχεία σε αυτό το τεκμήριο

Όνομα:: Derziotis_20014.pdf
Μέγεθος:: 5.631Mb
Τύπος:: PDF

Προβολή/Άνοιγμα

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Μεταπτυχιακές διπλωματικές εργασίες - Επιστήμη και Τεχνολογία της Πληροφορικής και των Υπολογιστών
Μεταπτυχιακές διπλωματικές εργασίες ΠΜΣ Επιστήμη και Τεχνολογία της Πληροφορικής και των Υπολογιστών

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές

Εκτός από όπου επισημαίνεται κάτι διαφορετικό, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές