Εντοπισμός ψευδών ειδήσεων σε ελληνικά και αγγλικά κείμενα με χρήση αλγορίθμων μηχανικής μάθησης
Detecting fake news on greek and english texts using machine learning algorithms
Keywords
Μηχανική μάθηση ; Βαθιά μάθηση ; Ψευδείς ειδήσεις ; Νευρωνικά δίκτυα ; Feed-forward neural networks ; Recurrent neural networks ; BertAbstract
Στην σημερινή εποχή, τόσο στα μέσα κοινωνικής δικτύωσης όσο και στα ειδησεογραφικά άρθρα εφημερίδων, υπάρχει μια σημαντική άνοδος των ψευδών ειδήσεων. Σε μια εποχή που τα μέσα κοινωνικής δικτύωσης έχουν γίνει αναπόσπαστο κομμάτι της καθημερινότητάς μας καθώς και για πολλούς μια σημαντική πηγή ειδήσεων, πρέπει να ελέγχεται η ορθότητα της πληροφορίας που αναρτιούνται σε αυτά. Το ίδιο ισχύει και για τα ειδησεογραφικά άρθρα που πλέον είναι διαθέσιμα στο διαδίκτυο και στα μέσα κοινωνικής δικτύωσης και οι άνθρωποι στρέφονται σε αυτά για να ενημερωθούν. Σε αυτή τη διπλωματική εργασία θα μελετήσουμε το πρόβλημα των ψευδών ειδήσεων εξετάζοντας κείμενα τόσο της αγγλικής όσο και της ελληνικής γλώσσας κάνοντας χρήση αλγορίθμων μηχανικής και βαθιάς μάθησης ώστε να μπορέσουμε να μελετήσουμε και να αξιολογήσουμε τις αποδόσεις των μοντέλων πάνω στο πρόβλημα των ψευδών ειδήσεων. Για το κομμάτι της αγγλικής γλώσσας έγινε χρήση του συνόλου δεδομένων PHEME που αποτελείται από tweets ενώ για το κομμάτι της ελληνικής γλώσσας επιλέχθηκε μια συλλογή δεδομένων που αποτελείται από ειδησεογραφικά άρθρα.
Abstract
Nowadays, both on social media and in newspaper news articles, there is a significant rise in fake news. At a time when social media has become an integral part of our daily lives as well as for many important news sources, the correctness of the information that is denied in them must be checked. The same goes for news articles that now exist on the internet and social media and people turn to them for their daily information. In this diploma we will study the problem of fake news by examining the texts of both English and Greek using machine and deep learning algorithms so that we can study and evaluate the performance of models on the problem of fake news. For the English language part, the PHEME data set consisting of tweets was used, while for the Greek language part, a data collection consisting of news articles was selected.