Deep-Learning vs Classical Machine-Learning comparison for text classification
Σύγκριση Βαθιάς μάθησης και Μηχανικής μάθησης για την κατηγοριοποίηση κειμένων
Μεταπτυχιακή διπλωματική εργασία
Author
Δρίζης, Ιωάννης
Date
2022-07-08Advisor
Triantafyllou, IoannisKeywords
Machine learning ; Deep learning ; Text preprocessing ; Text classification ; Devmax.df ; Μηχανική μάθηση ; Βαθιά μηχανική μάθηση ; Προεπεξεργασία κειμένων ; Κατηγοριοποίηση κειμένωνAbstract
The Classical Machine Learning and Deep Learning models are used to provide solutions in everyday technologies, like weather prediction, stock price prediction, voice-to-text conversion, fraud detection, quality assurance, etc. These implementations are only a part of a broad range of applications where these algorithms can offer unique services.
In this dissertation, Classical Machine Learning models will be compared with Deep Learning Neural Network models, within the frame of Text Classification. This comparison will be done by using three different feature selection metrics, namely tf.idf, chi square (x2) and devmax.tf. Also, different Neural Network Deep Learning architectures are tested and compared between them, as well as different parameters (input vector size, topology architecture, etc.), which are applied in Neural Networks.
Abstract
Η Μηχανική Μάθηση και η Βαθιά Μάθηση, εφαρμόζονται σε τεχνολογίες καθημερινής χρήσης, όπως οι μετεωρολογικές προβλέψεις, η πρόβλεψη της τιμής μιας μετοχής, η μετατροπή ήχου σε κείμενο, η αναγνώριση απάτης, η διασφάλιση ποιότητας, κλπ. Αυτές οι εφαρμογές αποτελούν μονάχα ένα μικρό κομμάτι από το τεράστιο εύρος, όπου εφαρμόζονται μοντέλα Μηχανικής Μάθησης και Βαθιάς Μάθησης.
Σε αυτή την πτυχιακή, θα συγκριθούν κλασσικά μοντέλα Μηχανικής Μάθησης με μοντέλα Βαθιάς Μηχανικής Μάθησης, μέσα στο πλαίσιο της Κατηγοριοποίησης Κειμένου. Η σύγκριση θα λάβει χώρα με τη χρήση τριών διαφορετικών μετρικών εξαγωγής χαρακτηριστικών: την tf.idf, χ τετράγωνο (χ2) και devmax.df. Επιπλέον, θα εξεταστούν και θα συγκριθούν διαφορετικές αρχιτεκτονικές Νευρωνικών Δικτύων Βαθιάς Μάθησης, όπως επίσης και διαφορετικές παραμέτρους (μέγεθος διανύσματος εισαγωγής, αρχιτεκτονική τοπολογίας, κλπ.), οι οποίες εφαρμόζονται σε Νευρωνικά Δίκτυα.