Ταξινόμηση και μεταφορά τεχνοτροπίας (στυλ) κινουμένων σχεδίων με χρήση βαθέων νευρωνικών δικτύων
Classification and style transfer of animation using deep neural networks
Keywords
Μηχανική μάθηση ; Βαθιά μάθηση ; Ταξινόμηση ; Μεταφορά στυλ ; Συνελικτικά νευρωνικά δίκτυα ; Machine learning ; Deep learning ; Classification ; Style transfer ; Convolutional neural network ; CNN ; VGGAbstract
Η αναγνώριση και η ταξινόμηση εικόνας είναι οι δύο πιο συχνές περιπτώσεις χρήσης των CNN στον τομέα της Μηχανικής Μάθησης. Πηγαίνοντας ένα βήμα παραπέρα, η ανίχνευση και ταξινόμηση διαφορετικών στυλ, καθώς και η μεταφορά ενός στυλ, από μια εικόνα σε μια άλλη είναι μια ακόμα ενδιαφέρουσα εφαρμογή των CNN.
Ο στόχος είναι η δημιουργία ενός μοντέλου το οποίο, λαμβάνοντας υπόψη αρκετές εικόνες διαφορετικών στυλ (είτε πρόκειται για διαφορετικά στυλ τέχνης, στυλ κινούμενων σχεδίων κλπ), αναγνωρίζει, διαφοροποιεί και προβλέπει με ακρίβεια το στυλ μιας εικόνας. Για το δεύτερο μέρος, χρησιμοποιώντας τμήματα ενός μοντέλου, μπορεί κανείς να αναγνωρίσει και να μεταφέρει τα χαρακτηριστικά ενός συγκεκριμένου στυλ σε μια εικόνα διαφορετικού στυλ.
Σε αυτή τη διπλωματική εργασία, προσπαθούμε να κάνουμε τη διάκριση μεταξύ των Δυτικών και Ανατολικών στυλ κινουμένων σχεδίων (συχνά αναφέρονται ως “cartoon” και “anime” αντίστοιχα). Αυτό χωρίζεται σε δυο μέρη. Το πρώτο μέρος είναι η αναγνώριση και η ταξινόμηση στυλ, όπου προσπαθούμε να ταξινομήσουμε την κατηγορία μιας εικόνας και το δεύτερο μέρος είναι η μεταφορά στυλ, όπου προσπαθούμε να μεταφέρουμε τα χαρακτηριστικά του ενός στυλ σε μια εικόνα του άλλου.
Για να το πετύχουμε αυτό, δημιουργούμε και αξιολογούμε μερικά μοντέλα CNN, με διαφορετικές αρχιτεκτονικές και διαφορετικά επίπεδα πολυπλοκότητας στην αρχιτεκτονική τους, και συγκρίνουμε την απόδοση και τα αποτελέσματά τους. Πιο συγκεκριμένα, για το κομμάτι της αναγνώρισης και ταξινόμησης, δημιουργήσαμε 3 διαφορετικά μοντέλα, ένα VGG16 μοντέλο, ένα VGG19 μοντέλο και ένα μοντέλο CNN με 4 συνελικτικά επίπεδα, τα οποία εκπαιδεύσαμε, αξιολογήσαμε και συγκρίναμε τις επιδόσεις και τα αποτελέσματά τους. Για το κομμάτι της μεταφοράς στυλ, δημιουργήσαμε ένα VGG19 μοντέλο και χρησιμοποιώντας συγκεκριμένα στρώματα, τα οποία περιέχουν την πληροφορία που μας ενδιαφέρει, μεταφέραμε τα χαρακτηριστικά στυλ από μια εικόνα σε μια άλλη.
Abstract
Image recognition and classification are the two most common use cases of CNNs in the field of Machine Learning. Going a step further, detecting and classifying different styles, as well as transferring characteristics of a style, from one image to another is an interesting application of CNNs.
The goal is to create a model which, given enough images of different styles (whether that would be different art styles, animation styles etc.), recognize, differentiate and accurately predict the style of an image. For the second part, using parts of a model, one can recognize and transfer the characteristics of a particular style to an image of a different style.
In this diploma thesis, we endeavor to differentiate between Western and Eastern animation styles (more commonly referred to as “cartoon” and “anime” respectively). This is split into two parts. The first part is style recognition and classification, where we try to classify the category of an image and the second part is style transfer, where we try to transfer the characteristics of each style to an image of the different style.
To achieve this, we create and evaluate a few CNN models, with different architectures and differing levels of complexity in their designs, and compare their performance and results. In particular, for the style recognition part, we create 3 different models, a VGG16 model, a VGG19 model and a custom CNN model with 4 convolution layers, which we train, evaluate and compare their performance and results. As for the style transfer part, we create a VGG19 model and using specific layers, which contain the information we need, we transfer the style characteristics from one image on to another.