Ανασκόπηση σύγχρονων παραγωγικών μεθόδων και συγκριτική αξιολόγησή τους στη δημιουργία συνθετικών εικόνων
Review of modern generative methods and their comparative evaluation in generating

Διπλωματική εργασία
Συγγραφέας
Ζωβoΐλης, Δημήτριος-Μάριος
Ημερομηνία
2025-02-27Επιβλέπων
Βασιλάς, ΝικόλαοςΛέξεις-κλειδιά
Νευρωνικά δίκτυα ; AIΠερίληψη
Τα τελευταία χρόνια οι παραγωγικές μέθοδοι έχουν γίνει αναπόσπαστο κομμάτι της
δημιουργίας συνθετικών εικόνων. Η παρούσα διπλωματική εργασία προσφέρει μια αυστηρή
μελέτη και συγκριτική ανάλυση τριών κορυφαίων παραγωγικών αρχιτεκτονικών: Variational
Autoencoders (VAEs), Generative Adversarial Networks (GANs) και Diffusion Models. Η
μελέτη ξεκινά με μια σε βάθος διερεύνηση των θεωρητικών θεμελίων κάθε προσέγγισης,
αποσαφηνίζοντας τους βασικούς μηχανισμούς, τα δυνατά σημεία και τους εγγενείς
περιορισμούς τους στη σύλληψη πολύπλοκων κατανομών δεδομένων. Στη συνέχεια,
πραγματοποιείται μια εμπειρική αξιολόγηση σε ευρέως γνωστά σύνολα δεδομένων: MNIST,
Fashion-MNIST και CelebA, για να αξιολογηθεί η αποτελεσματικότητα κάθε μοντέλου σε
διαφορετικά επίπεδα πολυπλοκότητας εικόνων. Η αξιολόγηση των επιδόσεων ενσωματώνει
τόσο ποσοτικές μετρήσεις, όπως το Inception Score (IS) και το Fréchet Inception Distance
(FID), όσο και ποιοτικές αξιολογήσεις που επικεντρώνονται στην αληθοφάνεια και την
ποικιλομορφία των παραγόμενων εικόνων. Μέσω αυτής της ανάλυσης, διαφαίνονται τα
συγκριτικά πλεονεκτήματα και οι πιθανές αδυναμίες κάθε τεχνικής, θέτοντας τα θεμέλια για
μελλοντικές έρευνες σχετικά με αλγοριθμικές βελτιώσεις που μπορούν να αποφέρουν πιο
ισχυρές και προσαρμόσιμες μεθοδολογίες σύνθεσης εικόνων.
Περίληψη
In recent years, production methods have become an indispensable part of creating synthetic
images. This thesis offers a rigorous study and comparative analysis of three leading
generative architectures: variational autoencoders (VAEs), Generative Adversarial Networks
(GANs) and Diffusion Models. The study begins with an in-depth exploration of the
theoretical foundations of each approach, clarifying their key mechanisms, strengths and
inherent limitations in capturing complex data distributions. Then, an empirical evaluation is
performed on widely known datasets; MNIST, Fashion-MNIST and CelebA, to assess the
effectiveness of each model at different levels of image complexity. The performance
evaluation incorporates both quantitative metrics, such as Inception Score (IS) and Fréchet
Inception Distance (FID), and qualitative evaluations focusing on the believability and
diversity of the generated images. Through this analysis, the comparative strengths and
potential weaknesses of each technique become apparent, laying the foundation for future
research on algorithmic improvements that can yield more robust and adaptable image
synthesis methodologies.