Εμφάνιση απλής εγγραφής

Σύνθεση εικόνας από κείμενο με χρήση γεννητικών ανταγωνιστικών δικτύων

dc.contributor.advisorΒουλόδημος, Αθανάσιος
dc.contributor.authorΔημητρίου, Ηλίας
dc.date.accessioned2021-07-21T10:50:55Z
dc.date.available2021-07-21T10:50:55Z
dc.date.issued2021-07-15
dc.identifier.urihttps://polynoe.lib.uniwa.gr/xmlui/handle/11400/883
dc.identifier.urihttp://dx.doi.org/10.26265/polynoe-734
dc.description.abstractΗ σύνθεση εικόνας από κείμενο αποτελεί ένα αρκετά σύνθετο πρόβλημα, κυρίως του κλάδου της Όρασης Υπολογιστών, με αρκετές πρακτικές εφαρμογές. Βασικός στόχος του αντικειμένου αυτού είναι η δημιουργία εικόνων από ένα μοντέλο, κατόπιν παροχής σε αυτό ορισμένων λεκτικών περιγραφών. Οι παραγόμενες εικόνες πρέπει να είναι υψηλής ποιότητας και συναφείς με τις λεκτικές περιγραφές. Αρκετές προσεγγίσεις σύνθεσης εικόνας από κείμενο, έχουν καταφέρει να κατασκευάσουν εικόνες που αντικατοπτρίζουν έως ένα σημείο την σημασία των δοθέντων λεκτικών περιγραφών, αλλά παρουσιάζουν αδυναμίες αναφορικά με την απεικόνιση λεπτομερειών των αντικειμένων που περιγράφονται. Με την ανάπτυξη των Γεννητικών Ανταγωνιστικών Δικτύων(Generative Adversarial Networks-GAN's), έχει παρατηρηθεί σημαντική βελτίωση αναφορικά με την επίλυση αυτού του προβλήματος, καθώς έχουν αναπτυχθεί τεχνικές που είναι ικανές να παράξουν εικόνες τόσο αληθοφανείς και ταυτόχρονα σχετικές με τις περιγραφές τους που μπορούν να ξεγελάσουν μέχρι και τον άνθρωπο. Αυτές οι τεχνικές περιλαμβάνουν βαθιά συνελικτικούς και επαναλαμβανόμενους κωδικοποιητές κειμένου, που βοηθούν στη μάθηση ορισμένων συναρτήσεων που συσχετίζουν τις εικόνες με λεκτικές περιγραφές και όχι με ετικέτες κλάσεων, όπως είναι σύνηθες. Με αυτό τον τρόπο επιτυγχάνεται μία προσέγγιση θεώρησης της εικόνας και την αντίστοιχης περιγραφής αυτής ως μία οντότητα. Στη παρούσα διπλωματική εργασία, γίνεται αξιοποίηση υλοποιημένου από τρίτους κώδικα και αξιολόγηση των αποτελεσμάτων αυτού, μέσω κάποιων μετρικών, προκειμένου να γίνει μια σχετική σύγκριση μεταξύ ορισμένων μοντέλων σύνθεσης εικόνας από κείμενο που υπάρχουν. Η υλοποίηση αυτή περιλαμβάνει την χρήση του αλγορίθμου CLS-GAN σε συνδυασμό με το StackGAN.el
dc.format.extent41el
dc.language.isoelel
dc.publisherΠανεπιστήμιο Δυτικής Αττικήςel
dc.rightsΑναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές*
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Διεθνές*
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Διεθνές*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/*
dc.subjectΣύνθεση εικόνας από κείμενοel
dc.subjectCLS-GANel
dc.subjectStackGANel
dc.subjectΌραση υπολογιστώνel
dc.subjectΓεννητικά ανταγωνιστικά δίκτυαel
dc.titleΣύνθεση εικόνας από κείμενο με χρήση γεννητικών ανταγωνιστικών δικτύωνel
dc.title.alternativeText to image synthesis using generative adversarial networksel
dc.typeΔιπλωματική εργασίαel
dc.contributor.committeeΜπαρδής, Γεώργιος
dc.contributor.committeeTselenti, Panagiota
dc.contributor.facultyΣχολή Μηχανικώνel
dc.contributor.departmentΤμήμα Μηχανικών Πληροφορικής και Υπολογιστώνel
dc.description.abstracttranslatedText-to-image synthesis is a challenging problem, mostly in the field of Computer Vision, with many practical applications. The basic goal of this research area is the creation of images from a model, after providing it with some text descriptions. The produced images must be of high-quality as well as relevant to the text descriptions. Many text-to-image approaches have managed to produce images that reflect the meaning of the given text descriptions up to a point, but they still manifest weaknesses regarding the depiction of the described objects details With the growth of Generative Adversarial Networks, a great improvement has been observed regarding the solution of this problem, since different techniques have been developed, which have proven capable of producing images so plausible and at the same time relevant to the text descriptions, that can fool even humans. These techniques use deep convolutional and recurrent text encoders to learn a correspondence function with images by conditioning the model conditions on text descriptions instead of class labels. In this way, a view that considers the image and the text description as one entity, is achieved. The main goal of the present thesis, is to use a code developed by a third party, and afterwards evaluate the results of the model, through the use of some metrics, in order to compare them with other existing text-to-image models. This implementation includes the use of the CLS-GAN algorithm along with StackGAN.el


Αρχεία σε αυτό το τεκμήριο

Thumbnail

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές
Εκτός από όπου επισημαίνεται κάτι διαφορετικό, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές