Εμφάνιση απλής εγγραφής

Real-time fraud detection using big data and ml techniques

dc.contributor.advisorΤσολακίδης, Αναστάσιος
dc.contributor.advisorΑνδρίτσος, Περικλής
dc.contributor.authorΚαστρινός, Θεόδωρος
dc.date.accessioned2025-03-05T07:09:49Z
dc.date.available2025-03-05T07:09:49Z
dc.date.issued2025-02-13
dc.identifier.urihttps://polynoe.lib.uniwa.gr/xmlui/handle/11400/8537
dc.description.abstractFraud detection in financial transactions finds great importance in the fight against financial crime. In this thesis, two models are developed: CatBoost and Light Gradient Boosting Machine for classifying transactions into "Fraud," "No Fraud," or "Suspicious." Later, the suspicious transactions will be relabeled after investigation and reintegrated into the training data, which will enhance the model performance. Apache Kafka allows doing real-time processing of data to efficiently handle live transactions. Challenges regarding dataset imbalance were addressed by employing class weights proportional to the inverse of class frequencies, further adjusted by a scaling factor to ensure optimal balance during training. In developing the adaptive accurate detection of frauds, this work designed a real-time pipeline, using a feedback loop iteratively in model refinements. Both the models are yielding good results; LGBM gave the best regarding precision and recall. The reintegration of relabeled data greatly increased accuracy, and the optimization performed with a focus on loss ensured that detection was better compared to traditional metrics. This thesis aims to contribute to the domain of fraud detection by presenting an adaptive and scalable framework in combination with real-time processing and continuous learning coupled with machine learning models. It addresses the challenges related to handling imbalanced datasets and evolving fraud patterns in real-world scenarios.el
dc.format.extent82el
dc.language.isoenel
dc.publisherΠανεπιστήμιο Δυτικής Αττικήςel
dc.publisherUniversité de Limogesel
dc.rightsΑναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές*
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Διεθνές*
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Διεθνές*
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Διεθνές*
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Διεθνές*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/*
dc.subjectCatboostel
dc.subjectOptunael
dc.subjectFraudel
dc.subjectLightgbmel
dc.subjectFraud detectionel
dc.subjectFinancial transactionsel
dc.subjectMachine learningel
dc.subjectInbalanced datasetsel
dc.subjectReal time processingel
dc.subjectApache kafkael
dc.subjectApache supersetel
dc.subjectContinuous learningel
dc.titleReal-time fraud detection using big data and ml techniquesel
dc.title.alternativeΑνίχνευση απάτης σε πραγματικό χρόνο με χρήση τεχνικών μεγάλων δεδομένων και μηχανικής μάθησηςel
dc.typeΜεταπτυχιακή διπλωματική εργασίαel
dc.contributor.committeeΜαστοροκώστας, Πάρις
dc.contributor.committeeKesidis, Anastasios
dc.contributor.facultyΣχολή Μηχανικώνel
dc.contributor.departmentΤμήμα Μηχανικών Πληροφορικής και Υπολογιστώνel
dc.contributor.departmentΤμήμα Μηχανικών Τοπογραφίας και Γεωπληροφορικήςel
dc.contributor.masterΤεχνητή Νοημοσύνη και Οπτική Υπολογιστικήel
dc.description.abstracttranslatedΗ ανίχνευση της απάτης στις χρηματοπιστωτικές συναλλαγές έχει μεγάλη σημασία για την καταπολέμηση του οικονομικού εγκλήματος. Στην παρούσα διατριβή αναπτύσσονται δύο μοντέλα: CatBoost και Light Gradient Boosting Machine για την ταξινόμηση των συναλλαγών σε «απάτη», «μη απάτη» ή «ύποπτη». Αργότερα, οι ύποπτες συναλλαγές θα επαναταξινομηθούν μετά από έρευνα και θα ενσωματωθούν εκ νέου στα δεδομένα εκπαίδευσης, γεγονός που θα ενισχύσει την απόδοση του μοντέλου. Το Apache Kafka επιτρέπει την πραγματοποίηση επεξεργασίας δεδομένων σε πραγματικό χρόνο για τον αποτελεσματικό χειρισμό ζωντανών συναλλαγών. Για να αντιμετωπιστεί το πρόβλημα της ανισορροπίας στα δεδομένα, δόθηκε μεγαλύτερο βάρος στις λιγότερο συχνές κλάσεις, ώστε το μοντέλο να μην τις αγνοεί. Επιπλέον, χρησιμοποιήθηκε ένας ειδικός συντελεστής προσαρμογής για να διατηρηθεί η σωστή ισορροπία στη διάρκεια της εκπαίδευσης. Και τα δύο μοντέλα αποδίδουν καλά αποτελέσματα- το LGBM έδωσε το καλύτερο όσον αφορά την ακρίβεια και την ανάκληση. Η επανενσωμάτωση των επανασημειωμένων δεδομένων αύξησε σημαντικά την ακρίβεια και η βελτιστοποίηση που πραγματοποιήθηκε με έμφαση στις απώλειες εξασφάλισε ότι η ανίχνευση ήταν καλύτερη σε σύγκριση με τις παραδοσιακές μετρήσεις. Συνοψίζοντας, αυτή η διατριβή στοχεύει να συμβάλει στην ανίχνευση απάτης, προτείνοντας ένα προσαρμοστικό και επεκτάσιμο σύστημα που συνδυάζει την επεξεργασία δεδομένων σε πραγματικό χρόνο με τη συνεχή μάθηση των μοντέλων μηχανικής μάθησης. Επιπλέον, αντιμετωπίζει τις προκλήσεις της ανισορροπίας στα δεδομένα και των διαρκώς μεταβαλλόμενων μοτίβων απάτης σε πραγματικές συνθήκες.el


Αρχεία σε αυτό το τεκμήριο

Thumbnail
Thumbnail

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές
Εκτός από όπου επισημαίνεται κάτι διαφορετικό, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές