Σχεδίαση και ανάπτυξη αμφίδρομων γεννητικών ανταγωνιστικών δικτύων υπό όρους για την ολοκλήρωση τρισδιάστατων σχημάτων
3D shape completion via bidirectional conditional generative adversarial networks
Διπλωματική εργασία
Συγγραφέας
Κζέσνιακ, Μαγκνταλένα Ιζαμπέλα
Ημερομηνία
2021-10-14Επιβλέπων
Βουλόδημος, ΑθανάσιοςΛέξεις-κλειδιά
GAN ; VAE ; Βαθιά μάθηση ; Νευρωνικά δίκτυα ; Αμφίδρομα γεννητικά ανταγωνιστικά δίκτυα υπό όρους ; Μεταβλητοί αυτοκωδικοποιητές ; Point clouds ; 3D shapes ; Ολοκλήρωση σχήματος ; Deep learningΠερίληψη
Σε ένα μικρό χρονικό διάστημα, η ραγδαία αύξηση του ενδιαφέροντος για την Όραση Υπολογιστών και τη Βαθιά Μάθηση οδήγησε σε έναν τεράστιο αριθμό διαφόρων εφαρμογών πάνω σε κείμενο, εικόνες, και βίντεο. Οι εφαρμογές αυτές ποικίλλουν από απλά προβλήματα όπως η «ανίχνευση κίνησης σε στατικές κάμερες» σε πιο πολύπλοκα όπως η «Σύλληψη Αντικειμένων από ένα Ρομπότ μέσω όρασης». Με την ταχεία ανάπτυξη των Γραφικών Υπολογιστών και των τεχνολογιών απόκτησης τρισδιάστατων μοντέλων, οι εφαρμογές Βαθιάς Μάθησης σε τρισδιάστατα μοντέλα αντικειμένων έχουν προσελκύσει όλο και περισσότερη προσοχή. Οι αισθητήρες μπορούν πλέον να παρέχουν τρισδιάστατα δεδομένα με πλούσια γεωμετρία, σχήμα και κλίμακα, και συνοδευόμενα από δισδιάστατες εικόνες, μπορούν να μας δώσουν μια καλύτερη κατανόηση του περιβάλλοντος.
Τα Τρισδιάστατα Δεδομένα μπορούν να αναπαρασταθούν με πολλαπλούς τρόπους, εκ των οποίων ο πιο συχνά χρησιμοποιούμενος είναι τα σημεία νέφους, τα οποία διατηρούν τις πρωταρχικές γεωμετρικές πληροφορίες σε τρισδιάστατο χώρο, χωρίς διακριτοποίηση. Ωστόσο, η Βαθιά Μάθηση σε σημεία νέφους είναι ακόμα στα αρχικά στάδια λόγω των ιδιαίτερων προκλήσεων που αντιμετωπίζουμε κατά την επεξεργασία των σημείων νέφους με Βαθιά Νευρωνικά Δίκτυα. Μία από τις κύριες προκλήσεις είναι ότι μοντέλα καλής ποιότητας είναι δύσκολο να αποκτηθούν και συχνά παρουσιάζουν έλλειψη τμημάτων δεδομένων. Ένας τρόπος επίλυσης του προβλήματος αυτού είναι η δημιουργία ενός μοντέλου ολοκλήρωσης τρισδιάστατων σχημάτων ικανό να αποκαταστήσει τα τμήματα που λείπουν.
Σε αυτή την διατριβή, θα ερευνήσουμε μια οικογένεια μοντέλων που ονομάζονται Βαθιά Παραγωγικά Μοντέλα. Συγκεκριμένα θα επεκταθούμε σε βάθος στα Γεννητικά Ανταγωνιστικά Δίκτυα (GAN), καθώς και στους Μεταβλητούς Αυτοκωδικοποιητές (VAE). Τα GAN δημιουργούν νέα δεδομένα βάση ένα σύνολο δεδομένων εκπαίδευσης, με τα οποία έχουν ίδια στατιστικά, ενώ οι VAE διασφαλίζουν ότι η διανομή των κωδικοποιήσεων του κανονικοποιείται κατά την διάρκεια της εκπαίδευσης, έτσι ώστε ο λανθάνων χώρος να είναι επαρκής ποιότητας, για την δημιουργία νέων δεδομένων. Ο κύριος στόχος είναι η δημιουργία ενός δικτύου ολοκλήρωσης σχημάτων βάσει σημείου, βασισμένο σε Βαθιά Παραγωγικά Μοντέλα, το οποίο μπορεί να ολοκληρώσει ένα μερικό σχήμα με λογικά αποτελέσματα.
Περίληψη
In a brief period, the rapid increase in interest in Computer Vision and Deep Learning has led to a plethora of different applications on text, images, and videos. Those applications range from simple problems such as “motion detection in static cameras” or “Spam Filtering” to more complex ones such as “Robot Object Grasping through Vision” or “Image Caption Generation.” With the expeditious development of Computer Graphics, and 3D models acquisition technologies, Deep Learning applications on 3D Object Models have attracted increased attention. Sensors can provide us with 3D data with rich geometry, shape, and scale information, and accompanied by 2D images, can grant us with a better understanding of a certain environment.
Three-Dimensional Data can be represented in a variety of ways, one of the most commonly used being point clouds (PC), which preserve the primary geometric information in 3D space without any discretization. However, even Deep Learning on Point Clouds is still in its preliminary stages due to challenges encountered when processing PCs with Deep Neural Networks. One of the main challenges is that decent quality PC Models are hard to obtain and often miss parts of data. A way to solve this problem is to create a 3D Shape Completion Model capable of restoring those missing parts.
In this dissertation, we will research a family of models, with a variety of applications in Computer Vision, called Deep Generative Models. Specifically, we will expand indepth on Generative Adversarial Networks (GANs) as well as Variational Autoencoders (VAE). GANs create new data based on a set of given training data, with which they have the same statistics, whereas VAEs ensure that their encodings distribution is regularized during the training so that the latent space is of sufficient quality, to generate new data. The main objective is to create a point-based shape completion network based on Deep Generative Models that can complete a partial scheme with reasonable results.