Show simple item record

Ανάπτυξη συστήματος τεχνητής νοημοσύνης αναγνώρισης της Ελληνικής Νοηματικής Γλώσσας

dc.contributor.advisorTroussas, Christos
dc.contributor.authorΚαψής, Στυλιανός Μιχαήλ
dc.date.accessioned2024-03-29T08:43:52Z
dc.date.available2024-03-29T08:43:52Z
dc.date.issued2024-03-23
dc.identifier.urihttps://polynoe.lib.uniwa.gr/xmlui/handle/11400/6262
dc.identifier.urihttp://dx.doi.org/10.26265/polynoe-6098
dc.description.abstractΤο πεδίο της Όρασης των Υπολογιστών και της Μηχανικής Μάθησης έχει δει μεγάλες εξελίξεις τα τελευταία χρόνια, επιτρέποντας να δημιουργηθούν διάφορες εφαρμογές που βελτιώνουν την εμπειρία του χρήστη σε ποικίλους τομείς. Μία τέτοια εφαρμογή, η οποία αναπτύχθηκε στα πλαίσια της διπλωματικής εργασίας, αποτελεί η αναγνώριση χειρονομιών σε πραγματικό χρόνο. Μία εφαρμογή που διαθέτει το δυνατότητα να γεφυρώσει χάσματα επικοινωνίας και αν εμπλουτίσει την πραγματικότητα με ψηφιακές πληροφορίες. Σε αυτή τη διπλωματική παρουσιάζεται μία ολοκληρωμένη εξερεύνηση ενός συστήματος αναγνώρισης χειρονομιών πραγματικού χρόνου, σχεδιασμένο για την ερμηνεία του αλφαβήτου της Ελληνικής Νοηματικής Γλώσσας, χρησιμοποιώντας στατικές χειρονομίες, με δυνατότητα επέκτασης για περαιτέρω εκπαίδευση με επιπλέον χειρονομίες. Το εισαγωγικό κεφάλαιο ορίζει τις βάσεις αναλύοντας τη σημασία της αναγνώρισης χειρονομιών, τονίζοντας τον στόχο της λύσης του προβλήματος της ερμηνείας της Ελληνικής Νοηματικής Γλώσσας και συζητώντας διάφορες προσεγγίσεις για την αντιμετώπιση αυτού του ζητήματος. Το δεύτερο κεφάλαιο αναφέρεται στις θεωρητικές βάσεις των εργαλείων τεχνολογίας που αξιοποιήθηκαν στην υλοποίηση της εφαρμογής αυτής. Ακόμα, εξετάζονται σχετικές θεωρητικές και πρακτικές μελέτες, που παρέχουν μια περιεκτική κατανόηση των βασικών αρχών και παραδείγματα ήδη υλοποιημένων εφαρμογών. Στο τρίτο κατά σειρά κεφάλαιο, παρουσιάζεται και αναλύεται η επιλεγμένη μεθοδολογία ανάπτυξης εφαρμογών, η γνωστή ως Ratiοnal Unified Prοcess (RUP), καλύπτοντας και τις τέσσερις φάσεις της, υποστηριζόμενες από διαγράμματα περιπτώσεων χρήσης και διαγράμματα Gantt για να παρέχουν μία ολοκληρωμένη εικόνα της διαδικασίας ανάπτυξης. Η αρχιτεκτονική της εφαρμογής αναφέρεται στο τέταρτο κεφάλαιο. O πυρήνας της εφαρμογής αποτελείται από τέσσερα κύρια αρχεία, υλοποιημένα στη γλώσσα προγραμματισμού Pythοn, αρχεία που αναλύονται διεξοδικά, εξηγώντας τις λειτουργίες και τον τρόπο αλληλεπίδρασής τους. Παρουσιάζεται στους αναγνώστες η εσωτερική λειτουργία του συστήματος, και τους δίνεται η ευκαιρία να την κατανοήσουν εις βάθος. Το πέμπτο κεφάλαιο αφιερώνεται στην εξήγηση και στην αξιολόγηση του πίνακα σύγχυσης, ο οποίος προκύπτει από την εκπαίδευση του μοντέλου μηχανικής μάθησης κατάλληλο για ταξινόμηση πολλών χειρονομιών. Διευκολύνει, με βάση μετρικών απόδοσης, στην καταμέτρηση του ύψους του βαθμού των ικανοτήτων του μοντέλου να αναγνωρίζει τις χειρονομίες της Ελληνικής Νοηματικής Γλώσσας. Το κλείσιμο της διπλωματικής, κεφάλαιο έξι, παρουσιάζει τα συμπεράσματα από την ολοκλήρωση και χρήση του συστήματος αναγνώρισης χειρονομιών, και περιγράφει πιθανούς τρόπους για την περαιτέρω μελλοντική ανάπτυξη και εξέλιξη του. Ανακεφαλαιώνοντας, στα πλαίσια της διπλωματικής εργασίας αναπτύχθηκε ένα σύστημα αναγνώρισης χειρονομιών, που αντιστοιχούν σε γράμματα της Ελληνικής Νοηματικής Γλώσσας, αξιοποιώντας το ΑPI της ΜediaPipe-Hands για τον εντοπισμό των σημείων αναφοράς της παλάμης και μία διαδικασία συλλογής και προ-επεξεργασίας των δεδομένων. Έπειτα με την εκπαίδευση και τη χρήση ενός νευρωνικού δικτύου, καθίσταται, η αναγνώριση σε πραγματικό χρόνο των συγκεκριμένων χειρονομιών που αναφέρθηκαν παραπάνω, εφικτή. Πέρα από την ερμηνεία του αλφαβήτου της Ελληνικής Νοηματικής Γλώσσας, προσφέρει και δυνατότητα επέκτασης για την υποστήριξη παραπάνω χειρονομιών. Μέσω θεωρητικής μελέτης, μεθοδικής ανάπτυξης, δημιουργίας ευέλικτης αρχιτεκτονικής και ολοκληρωμένης αξιολόγησης, αυτό το έργο συμβάλλει στην ανάπτυξη εφαρμογών που εμπίπτουν στους τομείς της Όρασης Υπολογιστών και της Μηχανικής Μάθησης, θεμελιώνει σταθερές βάσεις για τη γεφύρωση της επικοινωνίας μεταξύ της κοινότητας των κωφών και βαρήκοων και των συνανθρώπων τους και ενισχύει τις αλληλεπιδράσεις των ανθρώπων με τους ηλεκτρονικούς υπολογιστές, αποφεύγοντας τη χρήση υπολογιστικού υλικού τελευταίας γενιάς.el
dc.format.extent144el
dc.language.isoelel
dc.publisherΠανεπιστήμιο Δυτικής Αττικήςel
dc.rightsΑναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές*
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Διεθνές*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/*
dc.subjectΕλληνική νοηματική γλώσσαel
dc.subjectΤεχνητή νοημοσύνηel
dc.subjectΜηχανική μάθησηel
dc.subjectFeedfοrward neural netwοrksel
dc.subjectPythοnel
dc.subjectΑναγνώριση χειρονομιώνel
dc.subjectMediapipe hands algorithmel
dc.titleΑνάπτυξη συστήματος τεχνητής νοημοσύνης αναγνώρισης της Ελληνικής Νοηματικής Γλώσσαςel
dc.title.alternativeDevelopment of a Greek Sign Language recognition system with artificial intelligenceel
dc.typeΔιπλωματική εργασίαel
dc.contributor.committeeTselenti, Panagiota
dc.contributor.committeeΚρούσκα, Ακριβή
dc.contributor.facultyΣχολή Μηχανικώνel
dc.contributor.departmentΤμήμα Μηχανικών Πληροφορικής και Υπολογιστώνel
dc.description.abstracttranslatedThe field of Computer Vision and Machine Learning has witnessed significant progress in recent years, enabling the creation of diverse applications that enhance user experience in various fields. Realtime gesture recognition is one of such applications, developed within the confines of this thesis. This application has the potential to bridge communication barriers and augment reality with digital information. This thesis presents a comprehensive investigation into a real-time gesture recognition system. The system is designed to interpret the Greek Sign Language alphabet using static gestures, with the potential for expansion to include additional gestures in future training. There are no subjective evaluations included, and technical term abbreviations are explained upon first use. The language is clear and concise, using highlevel, standard language with consistent technical terms in a formal register. The structure is logical, with causal connections between statements and a balanced perspective. Precise subject-specific vocabulary is used for greater accuracy, and the text is free from grammatical errors, spelling mistakes, and punctuation errors. The formatting aligns with common academic sections, follows a consistent citation and footnote style, clearly marks quotes, and avoids filler words. The first chapter sets out to analyze the significance of recognizing gestures. It highlights the objective of rectifying the issue of Greek Sign Language interpretation and deliberates several resolutions to this predicament. Chapter two is dedicated to the technical basis of the tools implicated in this system's execution. Furthermore, the text provides a thorough review of relevant theoretical and practical studies, allowing for a comprehensive understanding of basic principles and exemplified applications that have already been implemented. The third chapter details the chosen application development methodology, Rational Unified Process (RUP), presenting and analyzing all four phases. This analysis is further supported by use case diagrams and Gantt charts, offering an all-encompassing view of the development process. The fourth chapter presents an analysis of the application's architecture. The application's core is made up of four main files written in the Python programming language. These files are thoroughly examined, describing their functions and interactions with each other. The readers are provided with an in-depth explanation of the system's internal workings, allowing for comprehensive comprehension. The fifth chapter explains and evaluates the confusion matrix resulting from the training of a machine learning model for multi-gesture classification. Abbreviations are defined when first used. Clear structure and progression with causal relationships between statements are maintained. This matrix, based on performance metrics, measures the degree to which the model recognizes Greek Sign Language gestures. The language is formal and objective, avoiding biased or figurative language. The final chapter of this thesis provides an objective overview of the integration and use of the gesture recognition system, drawing conclusions from the13 findings. Additionally, potential avenues for future development and improvement are discussed. The chapter follows a logical progression and maintains a formal, balanced tone throughout. Technical terms are explained where necessary, and the language is free from grammatical errors, colloquialisms, and filler words. In summary, this thesis presents the development of a gesture recognition system for the Greek Sign Language. The ΑPI of Media Pipe-Hands was utilized to detect the reference points of the palm, and a data collection and pre-processing process was implemented. After training and applying a neural network, the system is able to perform real-time recognition of the specific gestures mentioned above. In addition to interpreting the alphabet of Greek Sign Language, this system also allows for further support of the mentioned gestures. This project contributes to the development of Computer Vision and Machine Learning applications through theoretical study, methodical development, creation of a flexible architecture, and integrated evaluation. It lays sturdy groundwork for enhanced communication between the deaf/hard of hearing community and others, and it elevates interactions with computers, all while avoiding the need for cutting-edge computing hardware.el


Files in this item

Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record

Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές
Except where otherwise noted, this item's license is described as
Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές