Real-time fraud detection using big data and ml techniques

Καστρινός, Θεόδωρος

Ανίχνευση απάτης σε πραγματικό χρόνο με χρήση τεχνικών μεγάλων δεδομένων και μηχανικής μάθησης

Μεταπτυχιακή διπλωματική εργασία

Author

Καστρινός, Θεόδωρος

Date

2025-02-13

Advisor

Τσολακίδης, Αναστάσιος
Ανδρίτσος, Περικλής

Διπλωματική Εργασία (2.607Mb)

ΔΗΛΩΣΗ-ΣΥΓΓΡΑΦΕΑ-ΜΕΤΑΠΤΥΧΙΑΚΗΣ-ΕΡΓΑΣΙΑΣ.pdf (280.4Kb)

Keywords

Catboost ; Optuna ; Fraud ; Lightgbm ; Fraud detection ; Financial transactions ; Machine learning ; Inbalanced datasets ; Real time processing ; Apache kafka ; Apache superset ; Continuous learning

Abstract

Fraud detection in financial transactions finds great importance in the fight against financial crime. In this thesis, two models are developed: CatBoost and Light Gradient Boosting Machine for classifying transactions into "Fraud," "No Fraud," or "Suspicious." Later, the suspicious transactions will be relabeled after investigation and reintegrated into the training data, which will enhance the model performance. Apache Kafka allows doing real-time processing of data to efficiently handle live transactions. Challenges regarding dataset imbalance were addressed by employing class weights proportional to the inverse of class frequencies, further adjusted by a scaling factor to ensure optimal balance during training. In developing the adaptive accurate detection of frauds, this work designed a real-time pipeline, using a feedback loop iteratively in model refinements. Both the models are yielding good results; LGBM gave the best regarding precision and recall. The reintegration of relabeled data greatly increased accuracy, and the optimization performed with a focus on loss ensured that detection was better compared to traditional metrics. This thesis aims to contribute to the domain of fraud detection by presenting an adaptive and scalable framework in combination with real-time processing and continuous learning coupled with machine learning models. It addresses the challenges related to handling imbalanced datasets and evolving fraud patterns in real-world scenarios.

Abstract

Η ανίχνευση της απάτης στις χρηματοπιστωτικές συναλλαγές έχει μεγάλη σημασία για την καταπολέμηση του οικονομικού εγκλήματος. Στην παρούσα διατριβή αναπτύσσονται δύο μοντέλα: CatBoost και Light Gradient Boosting Machine για την ταξινόμηση των συναλλαγών σε «απάτη», «μη απάτη» ή «ύποπτη». Αργότερα, οι ύποπτες συναλλαγές θα επαναταξινομηθούν μετά από έρευνα και θα ενσωματωθούν εκ νέου στα δεδομένα εκπαίδευσης, γεγονός που θα ενισχύσει την απόδοση του μοντέλου. Το Apache Kafka επιτρέπει την πραγματοποίηση επεξεργασίας δεδομένων σε πραγματικό χρόνο για τον αποτελεσματικό χειρισμό ζωντανών συναλλαγών. Για να αντιμετωπιστεί το πρόβλημα της ανισορροπίας στα δεδομένα, δόθηκε μεγαλύτερο βάρος στις λιγότερο συχνές κλάσεις, ώστε το μοντέλο να μην τις αγνοεί. Επιπλέον, χρησιμοποιήθηκε ένας ειδικός συντελεστής προσαρμογής για να διατηρηθεί η σωστή ισορροπία στη διάρκεια της εκπαίδευσης. Και τα δύο μοντέλα αποδίδουν καλά αποτελέσματα- το LGBM έδωσε το καλύτερο όσον αφορά την ακρίβεια και την ανάκληση. Η επανενσωμάτωση των επανασημειωμένων δεδομένων αύξησε σημαντικά την ακρίβεια και η βελτιστοποίηση που πραγματοποιήθηκε με έμφαση στις απώλειες εξασφάλισε ότι η ανίχνευση ήταν καλύτερη σε σύγκριση με τις παραδοσιακές μετρήσεις. Συνοψίζοντας, αυτή η διατριβή στοχεύει να συμβάλει στην ανίχνευση απάτης, προτείνοντας ένα προσαρμοστικό και επεκτάσιμο σύστημα που συνδυάζει την επεξεργασία δεδομένων σε πραγματικό χρόνο με τη συνεχή μάθηση των μοντέλων μηχανικής μάθησης. Επιπλέον, αντιμετωπίζει τις προκλήσεις της ανισορροπίας στα δεδομένα και των διαρκώς μεταβαλλόμενων μοτίβων απάτης σε πραγματικές συνθήκες.