Σύγκριση μοντέλων βαθιάς εκμάθησης μηχανής για την ανίχνευση και την αναγνώριση φρούτων από εικόνες
Fruit image classification and detection methods
Μεταπτυχιακή διπλωματική εργασία
Author
Βαρδουλάκη, Θεοδοσία
Date
2021-12Advisor
Grammatikopoulos, LazarosAbstract
Η γεωργία ως συνιστώσα του πρωτογενή τομέα είναι απαραίτητη για τον άνθρωπο, διότι ο ίδιος εξαρτάται άμεσα από αυτήν για την παραγωγή τροφίμων. Επομένως, απαιτείται συνεχής προσφορά και παραγωγή γεωργικών αγαθών για να ικανοποιηθεί η ζήτηση του αυξανόμενου παγκόσμιου πληθυσμού. Για το λόγο αυτό, ολόκληρη η αλυσίδα του αγροδιατροφικού τομέα αντιμετωπίζει αυξανόμενες προκλήσεις, οι οποίες απαιτούν την εφαρμογή νέων καινοτόμων τεχνολογιών για τη βελτίωση της παραγωγικότητάς της με την παράλληλη διατήρηση της ποιότητας των παραγόμενων αγαθών. Τα φρούτα ως αντικείμενο μελέτης της παρούσας διπλωματικής είναι επίσης ένα βασικό γεωργικό αγαθό για την ανθρώπινη ζωή. Κατά συνέπεια, η έρευνα για την ανάπτυξη εφαρμογών για την ταξινόμηση, ανίχνευση και τον ποιοτικό έλεγχο των φρούτων είναι σημαντική για αρκετούς οικονομικούς τομείς, τόσο για τις αγορές χονδρικής και λιανικής, όσο και για τις βιομηχανίες μεταποίησης. Η όραση υπολογιστών και η εκμάθηση μηχανής είναι από τα πιο χρησιμοποιούμενα τεχνολογικά εργαλεία στον αγροβιομηχανικό τομέα, τόσο στην αυτόματη συγκομιδή φρούτων, στις μηχανές διαλογής φρούτων και στη σάρωση φρούτων στο εμπόριο. Η βαθιά εκμάθηση μηχανής (Deep Learning) ως τομέας της εκμάθησης μηχανής αποτελεί μια πρόσφατη, σύγχρονη τεχνική επεξεργασίας εικόνας και ανάλυσης δεδομένων, με πολλά υποσχόμενα αποτελέσματα και μεγάλες δυνατότητες. Καθώς η βαθιά εκμάθηση μηχανής έχει εφαρμοστεί ήδη με επιτυχία σε διάφορους τομείς, πρόσφατα έχει αρχίσει να χρησιμοποιείται επίσης στον τομέα της γεωργίας. Η ανίχνευση φρούτων είναι ένα κρίσιμο συστατικό για τον αυτοματισμό της γεωργίας σε συνθήκες χωραφιού. Με την ακριβή γνώση των μεμονωμένων θέσεων των φρούτων στο χωράφι, είναι δυνατή η εκτίμηση της σοδειάς και η χαρτογράφηση του, οι οποίες είναι σημαντικές διαδικασίες για τους καλλιεργητές καθώς διευκολύνουν την αποτελεσματική χρήση των πόρων (λίπανση, πότισμα)και με αυτό το τρόπο μπορεί να γίνει ζωνοποίηση της καλλιέργειας και να γίνονται στοχευμένες επεμβάσεις σε αυτή βελτιώνοντας την παραγωγικότητα ανά περιοχή και εξοικονομώντας πόρους. Επίσης ο ακριβής εντοπισμός των φρούτων είναι απαραίτητο συστατικό για την ανάπτυξη ενός αυτοματοποιημένου ρομποτικού συστήματος συγκομιδής, το οποίο μπορεί να βοηθήσει στην άμβλυνση των κοπιαστικών και εντατικών εργασιών σε έναν οπωρώνα.
Στο παραπάνω πλαίσιο εντάσσεται και το αντικείμενο της παρούσας διπλωματικής, όπου μελετάται το πρόβλημα της ταξινόμησης και ανίχνευσης τριών κατηγοριών φρούτων σε εικόνες RGB που περιέχουν διαφορετικά είδη φρούτων χρησιμοποιώντας μοντέλα βαθιάς εκμάθησης μηχανής (deep learning). Στόχος είναι να αποκτηθεί καλύτερη κατανόηση των δυνατοτήτων και των περιορισμών των τεχνικών βαθιάς εκμάθησης μηχανής καθώς και να διερευνήσουν το πώς οι αρχιτεκτονικές βαθιάς εκμάθησης μηχανής μπορούν να αποτελέσουν τμήμα μιας εφαρμογής αξιοποιήσιμης στην πραγματική ζωή. Η μεθοδολογία της παρούσας εργασίας μπορεί να χωριστεί σε δυο διακριτά μέρη της ταξινόμησης και της ανίχνευσης φρούτων με μοντέλα deep learning. Σε καθένα από αυτά τα μέρη επιλέχθηκαν αρχιτεκτονικές και μοντέλα deep learning από τη μελέτη της βιβλιογραφίας, όπου χρησιμοποιούνται για την επίλυση αντίστοιχων προβλημάτων και εφαρμογών. Για το τμήμα της ταξινόμησης επιλέχθηκαν να χρησιμοποιηθούν 3 μοντέλα MobileNet, Resnet50 και VGG16. Ενώ για το τμήμα της ανίχνευσης φρούτων επιλέχθηκαν οι αρχιτεκτονικές SSD, Faster R-CNN σε συνδυασμό με το μοντέλο ResNet50 και YOLO v3. Τα μοντέλα εκπαιδεύτηκαν και αξιολογήθηκαν σε ένα ελεύθερα διαθέσιμο σετ δεδομένων από τον ιστότοπο Kaggle. Tα πειράματα έγιναν με τη χρήση του TensorFlow, όπου είναι μια βιβλιοθήκη ανοιχτού κώδικα η οποία προσφέρει τη δυνατότητα τόσο της χρήση και της εκπαίδευσης έτοιμων μοντέλων εκμάθησης μηχανής όσο και τη δημιουργία νέων μοντέλων από τον χρήστη. Στη διαδικασία των πειραμάτων έγινε εμβάθυνση στις τεχνικές transfer learning και fine tuning, όπως και σε τεχνικές προεπεξεργασίας όπως η επαύξηση δεδομένων (data augmentation), όπου βοηθούν τα μοντέλα να έχουν καλύτερες αποδόσεις ειδικά αν τα δεδομένα εκπαίδευσης είναι περιορισμένα καθώς εξοικονομούν υπολογιστικούς πόρους. Τέλος συγκρίθηκαν οι αποδόσεις των μοντέλων τόσο στην ταξινόμηση όσο και στην ανίχνευση των εξεταζόμενων κατηγοριών φρούτων.
Abstract
Agriculture as a component of the primary sector is essential for man, because he is directly dependent on it for food production. Therefore, continuous supply and production of agricultural goods is required to meet the demand of the growing world population. For this reason, the entire agri-food sector is facing increasing challenges, which require the application of new innovative technologies to improve its productivity while maintaining the quality of the produced commodities. Fruit, as the subject of this dissertation, is also a basic agricultural product for human life. Consequently, research into application development for fruit sorting, detection and quality control is important for several economic sectors, concerning automatic fruit harvesting, fruit sorting machines and commercial fruit scanning. Computer vision and machine learning are among the most widely used technological tools in the agro-industrial sector, both in automatic fruit harvesting, machines of grading for fruits and commercial fruit scanning. Deep Learning, as a field of machine learning, is recent; it is a modern technique of image processing and data analysis, with many promising results and great potential. As deep learning has already been successfully applied in various fields, it has recently also started to be used in agriculture. Fruit tracking is a critical point for agricultural automation in field conditions. Knowing the accurate individual locations of the fruit in the field, it is possible to perform yield estimation and mapping. These procedures are significant for growers as they facilitate the efficient use of resources (fertilization, watering). In this way cultivators could zone their crops and do targeted interventions in it, improving productivity per area and saving resources. Additional, precise localization of the fruit is a necessary element of an automated robotic harvesting system, which can help mitigate one of the most labor tasks in an orchard.
The above context also includes the subject of this dissertation, which studies the problem of classification and detection of three categories of fruit in RGB images that contain different types of fruit using deep machine learning models. The aim is to gain a better understanding of the possibilities and limitations of deep learning techniques as well as to explore how deep machine learning architectures can be part of a real-life application. The methodology of the present work can be divided into two distinct parts of the classification and detection of fruits with deep learning models. In each of these parts, architectures and deep learning models were selected from the literature study, where they are used to face corresponding problems and applications. For the classification section, 3 models are used MobileNet, Resnet50 and VGG16 while for the object detection section SSD, Faster R-CNN and YOLO v3 are employed. The deep learning models were trained and evaluated in a freely available dataset of images from the Kaggle website. The dataset contains different type of fruits. The experiments were performed using TensorFlow, which is an open-source library that offers the possibility of both using and training ready-made machine learning models as well as creating new models by the user. During the training of the models, data augmentation, transfer learning and fine-tuning techniques were used, which are really help the models to have higher performances, especially if the training data is limited as they save computing resources. Finally, the accuracy of the classification and object detection models was evaluated using the testing part of the dataset.