Σύνθεση εικόνας από κείμενο με χρήση γεννητικών ανταγωνιστικών δικτύων
Text to image synthesis using generative adversarial networks
Keywords
Σύνθεση εικόνας από κείμενο ; CLS-GAN ; StackGAN ; Όραση υπολογιστών ; Γεννητικά ανταγωνιστικά δίκτυαAbstract
Η σύνθεση εικόνας από κείμενο αποτελεί ένα αρκετά σύνθετο πρόβλημα, κυρίως του κλάδου της Όρασης Υπολογιστών, με αρκετές πρακτικές εφαρμογές. Βασικός στόχος του αντικειμένου αυτού είναι η δημιουργία εικόνων από ένα μοντέλο, κατόπιν παροχής σε αυτό ορισμένων λεκτικών περιγραφών. Οι παραγόμενες εικόνες πρέπει να είναι υψηλής ποιότητας και συναφείς με τις λεκτικές περιγραφές.
Αρκετές προσεγγίσεις σύνθεσης εικόνας από κείμενο, έχουν καταφέρει να κατασκευάσουν εικόνες που αντικατοπτρίζουν έως ένα σημείο την σημασία των δοθέντων λεκτικών περιγραφών, αλλά παρουσιάζουν αδυναμίες αναφορικά με την απεικόνιση λεπτομερειών των αντικειμένων που περιγράφονται.
Με την ανάπτυξη των Γεννητικών Ανταγωνιστικών Δικτύων(Generative Adversarial Networks-GAN's), έχει παρατηρηθεί σημαντική βελτίωση αναφορικά με την επίλυση αυτού του προβλήματος, καθώς έχουν αναπτυχθεί τεχνικές που είναι ικανές να παράξουν εικόνες τόσο αληθοφανείς και ταυτόχρονα σχετικές με τις περιγραφές τους που μπορούν να ξεγελάσουν μέχρι και τον άνθρωπο. Αυτές οι τεχνικές περιλαμβάνουν βαθιά συνελικτικούς και επαναλαμβανόμενους κωδικοποιητές κειμένου, που βοηθούν στη μάθηση ορισμένων συναρτήσεων που συσχετίζουν τις εικόνες με λεκτικές περιγραφές και όχι με ετικέτες κλάσεων, όπως είναι σύνηθες. Με αυτό τον τρόπο επιτυγχάνεται μία προσέγγιση θεώρησης της εικόνας και την αντίστοιχης περιγραφής αυτής ως μία οντότητα.
Στη παρούσα διπλωματική εργασία, γίνεται αξιοποίηση υλοποιημένου από τρίτους κώδικα και αξιολόγηση των αποτελεσμάτων αυτού, μέσω κάποιων μετρικών, προκειμένου να γίνει μια σχετική σύγκριση μεταξύ ορισμένων μοντέλων σύνθεσης εικόνας από κείμενο που υπάρχουν. Η υλοποίηση αυτή περιλαμβάνει την χρήση του αλγορίθμου CLS-GAN σε συνδυασμό με το StackGAN.
Abstract
Text-to-image synthesis is a challenging problem, mostly in the field of Computer Vision, with many practical applications. The basic goal of this research area is the creation of images from a model, after providing it with some text descriptions. The produced images must be of high-quality as well as relevant to the text descriptions.
Many text-to-image approaches have managed to produce images that reflect the meaning of the given text descriptions up to a point, but they still manifest weaknesses regarding the depiction of the described objects details
With the growth of Generative Adversarial Networks, a great improvement has been observed regarding the solution of this problem, since different techniques have been developed, which have proven capable of producing images so plausible and at the same time relevant to the text descriptions, that can fool even humans. These techniques use deep convolutional and recurrent text encoders to learn a correspondence function with images by conditioning the model conditions on text descriptions instead of class labels. In this way, a view that considers the image and the text description as one entity, is achieved.
The main goal of the present thesis, is to use a code developed by a third party, and afterwards evaluate the results of the model, through the use of some metrics, in order to compare them with other existing text-to-image models. This implementation includes the use of the CLS-GAN algorithm along with StackGAN.