Σύνθεση και ανίχνευση πλαστών (deep fake) βίντεο με αλγορίθμους βαθιάς μηχανικής μάθησης

Δρόσου, Μαρία

Deepfake video generation and detection

Διπλωματική εργασία

Author

Δρόσου, Μαρία

Date

2021-07-15

Advisor

Βουλόδημος, Αθανάσιος

Drosou_711151046.pdf (6.828Mb)

Keywords

Όραση υπολογιστών ; Σύνθεση πλαστών βίντεο ; Ανίχνευση πλαστών βίντεο ; Γενετικά ανταγωνιστικά δίκτυα ; Αυτόματοι κωδικοποιητές ; Μηχανική μάθηση ; Συνελικτικά νευρωνικά δίκτυα ; Computer vision ; Deepfake video generation ; Deepfake video detection ; Generative adversarial networks - GAN ; Autoencoders ; Machine learning ; Convolutional Neural Networks - CNN

Abstract

Η σύνθεση πλαστών (deep fake) βίντεο γίνεται με την εφαρμογή μηχανικής μάθησης και τεχνητής νοημοσύνης. Τα βίντεο αυτά δύναται να χρησιμοποιηθούν με καλές προθέσεις, όπως για παράδειγμα ως χιουμοριστικά βίντεο. Σε κάποιες περιπτώσεις όμως η χρήση τους μπορεί να είναι κακόβουλη, να έχουν δηλαδή στόχο την εξαπάτηση μέσω της προβολής τους ως δήθεν πραγματικά βίντεο. Λόγω της δυνητικά μεγάλης επιρροής που μπορούν να ασκήσουν τα βίντεο αυτά στη δημόσια σφαίρα, είναι αναγκαία η ανάπτυξη μοντέλων που μπορούν να ταυτοποιούν τέτοιες περιπτώσεις. Στα πλαίσια της παρούσας εργασίας εισαγωγικά επισημαίνονται οι θετικοί και αρνητικοί τρόποι χρήσης τεχνολογιών σύνθεσης πλαστών βίντεο και εικόνων. Στη συνέχεια προσδιορίζονται οι κατηγορίες πλαστών βίντεο και παρουσιάζονται υπάρχουσες εφαρμογές σύνθεσής τους. Ακολούθως αναφέρονται μέθοδοι που έχουν αναπτυχθεί ως τώρα με στόχο την ανίχνευσή πλαστών βίντεο. Οι μέθοδοι αυτοί κατηγοριοποιούνται σε μεθόδους που λαμβάνουν υπόψη την χρονική πληροφορία, δηλαδή την αλλαγή των χαρακτηριστικών μέσα σε μια αλληλουχία στιγμιότυπων του βίντεο, και σε μεθόδους που βασίζονται αποκλειστικά στη χωρική πληροφορία που εξάγεται από το κάθε στιγμιότυπο. Τέλος, παρουσιάζεται η δομή τεσσάρων μοντέλων μηχανικής μάθησης, του R3D, του MC3, του R2Plus1D και του I3D. Στα πλαίσια της παρούσας εργασίας τα μοντέλα αυτά εκπαιδεύτηκαν στα δείγματα του συνόλου Celeb-DF-v2, με στόχο να ταξινομούν βίντεο σε πλαστά ή αυθεντικά. Τα αποτελέσματά τους παρουσιάζονται, αξιολογούνται και συγκρίνονται ως προς την ικανότητα ανίχνευσης πλαστών (deep fake) βίντεο.

Abstract

Deep fake video generation uses machine learning and artificial intelligence. The synthesized videos can be used with good intentions, such as humorous videos. In some cases, however, their use can be malicious. That is when they aim to deceive through their promotion as supposedly real videos. Due to the potentially great influence that these videos can have on the public sphere, it is necessary to develop models that can identify such cases. In the context of this paper, the positive and negative ways of using deepfake video and image generation technologies are pointed out. The categories of fake videos are then identified and existing deepfake video generation algorithms are presented. After that, methods that have been developed for deepfake video detection are referenced. These techniques are categorized into methods that take into account temporal information, which is the change of features within a sequence of video frames, and into methods that rely solely on the spatial information extracted from each frame. Finally, the architecture of four machine learning models is presented. These are the R3D, MC3, R2Plus1D and I3D models. In this present dissertation, these models were trained in the Celeb-DF-v2 dataset, with the aim of classifying videos as fake or authentic. Their results are presented, evaluated and compared in terms of the ability to detect deepfake videos.