Σημασιολογική κατάτμηση εικόνων
Semantic segmentation of images
Keywords
Μηχανική μάθηση ; Βαθιά μάθηση ; Υπολογιστική όραση ; Νευρωνικά δίκτυα ; Κατάτμηση εικόνας ; Σημασιολογική κατάτμησηAbstract
Η παρούσα διπλωματική εργασία ασχολείται με την σημασιολογική κατάτμηση εικόνων που αποτελεί βασικό πεδίο στην επιστήμη της υπολογιστικής όρασης και εκφράζει την ταξινόμηση σε επίπεδο εικονοστοιχείων μιας εικόνας, με την απόδοση σε κάθε εικονοστοιχείο μιας συγκεκριμένης κατηγορίας αντικειμένου ή φόντου. Σκοπός της εργασίας αποτελεί η δημιουργία μιας μεθόδου σημασιολογικής κατάτμησης εικόνων με συνδυασμό πλήρως συνελικτικών δικτύων (FCN), αλγορίθμων μεταφοράς μάθησης και μεθόδους επεξεργασίας για όσο το δυνατόν μεγαλύτερη βελτίωση των αποτελεσμάτων, ώστε να είναι δυνατή η πρόβλεψη σε επίπεδο εικονοστοιχείων της δομής μιας εικόνας και των πληροφοριών που περιέχονται σ’ αυτήν. Απώτερος στόχος αποτελεί η χρήση της πειραματικής αυτής προσέγγισης σε ένα ρομπότ ως η λειτουργία που θα του δώσει την δυνατότητα να αναγνωρίσει και να ταξινομήσει αντικείμενα στο χώρο. Το βασικό θεωρητικό πλαίσιο του ευρύτερου πεδίου της μηχανικής μάθησης, της βαθιάς μάθησης, της σημασιολογικής κατάτμησης μετά των μεθόδων και τεχνικών που χρησιμοποιούνται για την επίλυση του προβλήματος, η ανάλυση των μέσων που έδωσαν την δυνατότητα να υλοποιηθεί η εργασία αυτή, τα στάδια υλοποίησης δύο διαφορετικών προσεγγίσεων μετά των αποτελεσμάτων, συγκρίσεων και συμπερασμάτων συνθέτουν την παρούσα εργασία.
Abstract
The present thesis concerns the development of semantic segmentation of images which is a key field in the science of computer vision and expresses the classification at the level of pixels of an image, with the assignment to each pixel of a specific class of object or background. The aim of the work is to create a method of semantic image segmentation with a combination of fully convolutional networks (FCN), transfer learning algorithms and processing methods to improve the results as much as possible, so that it is possible to predict at the pixel level the structure of an image and the information contained in it. The ultimate goal is to use this experimental approach in a robot as the function that will enable it to recognize and classify objects in space. The basic theoretical framework of the wider field of machine learning, deep learning, semantic segmentation after the methods and techniques used to solve the problem, the analysis of the means that made it possible to implement this work, the implementation stages of two different approaches after the results, comparisons and conclusions compose the present work.