Ανάπτυξη συστήματος τεχνητής νοημοσύνης αναγνώρισης της Ελληνικής Νοηματικής Γλώσσας
Development of a Greek Sign Language recognition system with artificial intelligence
Keywords
Ελληνική νοηματική γλώσσα ; Τεχνητή νοημοσύνη ; Μηχανική μάθηση ; Feedfοrward neural netwοrks ; Pythοn ; Αναγνώριση χειρονομιών ; Mediapipe hands algorithmAbstract
Το πεδίο της Όρασης των Υπολογιστών και της Μηχανικής Μάθησης έχει δει μεγάλες εξελίξεις
τα τελευταία χρόνια, επιτρέποντας να δημιουργηθούν διάφορες εφαρμογές που βελτιώνουν την εμπειρία του χρήστη σε ποικίλους τομείς. Μία τέτοια εφαρμογή, η οποία αναπτύχθηκε στα πλαίσια της διπλωματικής εργασίας, αποτελεί η αναγνώριση χειρονομιών σε πραγματικό χρόνο. Μία εφαρμογή που διαθέτει το δυνατότητα να γεφυρώσει χάσματα επικοινωνίας και αν εμπλουτίσει την πραγματικότητα με ψηφιακές πληροφορίες. Σε αυτή τη διπλωματική παρουσιάζεται μία ολοκληρωμένη εξερεύνηση ενός συστήματος αναγνώρισης χειρονομιών πραγματικού χρόνου, σχεδιασμένο για την ερμηνεία του αλφαβήτου της Ελληνικής Νοηματικής Γλώσσας, χρησιμοποιώντας στατικές χειρονομίες, με δυνατότητα επέκτασης για περαιτέρω εκπαίδευση με επιπλέον χειρονομίες.
Το εισαγωγικό κεφάλαιο ορίζει τις βάσεις αναλύοντας τη σημασία της αναγνώρισης χειρονομιών,
τονίζοντας τον στόχο της λύσης του προβλήματος της ερμηνείας της Ελληνικής Νοηματικής Γλώσσας και
συζητώντας διάφορες προσεγγίσεις για την αντιμετώπιση αυτού του ζητήματος. Το δεύτερο κεφάλαιο
αναφέρεται στις θεωρητικές βάσεις των εργαλείων τεχνολογίας που αξιοποιήθηκαν στην υλοποίηση της
εφαρμογής αυτής. Ακόμα, εξετάζονται σχετικές θεωρητικές και πρακτικές μελέτες, που παρέχουν μια
περιεκτική κατανόηση των βασικών αρχών και παραδείγματα ήδη υλοποιημένων εφαρμογών. Στο τρίτο
κατά σειρά κεφάλαιο, παρουσιάζεται και αναλύεται η επιλεγμένη μεθοδολογία ανάπτυξης εφαρμογών, η
γνωστή ως Ratiοnal Unified Prοcess (RUP), καλύπτοντας και τις τέσσερις φάσεις της, υποστηριζόμενες
από διαγράμματα περιπτώσεων χρήσης και διαγράμματα Gantt για να παρέχουν μία ολοκληρωμένη εικόνα
της διαδικασίας ανάπτυξης. Η αρχιτεκτονική της εφαρμογής αναφέρεται στο τέταρτο κεφάλαιο. O πυρήνας
της εφαρμογής αποτελείται από τέσσερα κύρια αρχεία, υλοποιημένα στη γλώσσα προγραμματισμού
Pythοn, αρχεία που αναλύονται διεξοδικά, εξηγώντας τις λειτουργίες και τον τρόπο αλληλεπίδρασής τους.
Παρουσιάζεται στους αναγνώστες η εσωτερική λειτουργία του συστήματος, και τους δίνεται η ευκαιρία να
την κατανοήσουν εις βάθος. Το πέμπτο κεφάλαιο αφιερώνεται στην εξήγηση και στην αξιολόγηση του
πίνακα σύγχυσης, ο οποίος προκύπτει από την εκπαίδευση του μοντέλου μηχανικής μάθησης κατάλληλο
για ταξινόμηση πολλών χειρονομιών. Διευκολύνει, με βάση μετρικών απόδοσης, στην καταμέτρηση του
ύψους του βαθμού των ικανοτήτων του μοντέλου να αναγνωρίζει τις χειρονομίες της Ελληνικής
Νοηματικής Γλώσσας. Το κλείσιμο της διπλωματικής, κεφάλαιο έξι, παρουσιάζει τα συμπεράσματα από
την ολοκλήρωση και χρήση του συστήματος αναγνώρισης χειρονομιών, και περιγράφει πιθανούς τρόπους
για την περαιτέρω μελλοντική ανάπτυξη και εξέλιξη του.
Ανακεφαλαιώνοντας, στα πλαίσια της διπλωματικής εργασίας αναπτύχθηκε ένα σύστημα
αναγνώρισης χειρονομιών, που αντιστοιχούν σε γράμματα της Ελληνικής Νοηματικής Γλώσσας,
αξιοποιώντας το ΑPI της ΜediaPipe-Hands για τον εντοπισμό των σημείων αναφοράς της παλάμης και μία
διαδικασία συλλογής και προ-επεξεργασίας των δεδομένων. Έπειτα με την εκπαίδευση και τη χρήση ενός
νευρωνικού δικτύου, καθίσταται, η αναγνώριση σε πραγματικό χρόνο των συγκεκριμένων χειρονομιών
που αναφέρθηκαν παραπάνω, εφικτή. Πέρα από την ερμηνεία του αλφαβήτου της Ελληνικής Νοηματικής
Γλώσσας, προσφέρει και δυνατότητα επέκτασης για την υποστήριξη παραπάνω χειρονομιών. Μέσω
θεωρητικής μελέτης, μεθοδικής ανάπτυξης, δημιουργίας ευέλικτης αρχιτεκτονικής και ολοκληρωμένης
αξιολόγησης, αυτό το έργο συμβάλλει στην ανάπτυξη εφαρμογών που εμπίπτουν στους τομείς της Όρασης Υπολογιστών και της Μηχανικής Μάθησης, θεμελιώνει σταθερές βάσεις για τη γεφύρωση της
επικοινωνίας μεταξύ της κοινότητας των κωφών και βαρήκοων και των συνανθρώπων τους και ενισχύει
τις αλληλεπιδράσεις των ανθρώπων με τους ηλεκτρονικούς υπολογιστές, αποφεύγοντας τη χρήση
υπολογιστικού υλικού τελευταίας γενιάς.
Abstract
The field of Computer Vision and Machine Learning has witnessed significant progress in recent years, enabling the creation of diverse applications that enhance user experience in various fields. Realtime gesture recognition is one of such applications, developed within the confines of this thesis. This application has the potential to bridge communication barriers and augment reality with digital information.
This thesis presents a comprehensive investigation into a real-time gesture recognition system. The system
is designed to interpret the Greek Sign Language alphabet using static gestures, with the potential for
expansion to include additional gestures in future training. There are no subjective evaluations included,
and technical term abbreviations are explained upon first use. The language is clear and concise, using highlevel, standard language with consistent technical terms in a formal register. The structure is logical, with
causal connections between statements and a balanced perspective. Precise subject-specific vocabulary is
used for greater accuracy, and the text is free from grammatical errors, spelling mistakes, and punctuation
errors. The formatting aligns with common academic sections, follows a consistent citation and footnote
style, clearly marks quotes, and avoids filler words.
The first chapter sets out to analyze the significance of recognizing gestures. It highlights the
objective of rectifying the issue of Greek Sign Language interpretation and deliberates several resolutions
to this predicament. Chapter two is dedicated to the technical basis of the tools implicated in this system's
execution. Furthermore, the text provides a thorough review of relevant theoretical and practical studies,
allowing for a comprehensive understanding of basic principles and exemplified applications that have
already been implemented. The third chapter details the chosen application development methodology,
Rational Unified Process (RUP), presenting and analyzing all four phases. This analysis is further supported
by use case diagrams and Gantt charts, offering an all-encompassing view of the development process. The
fourth chapter presents an analysis of the application's architecture. The application's core is made up of
four main files written in the Python programming language. These files are thoroughly examined,
describing their functions and interactions with each other. The readers are provided with an in-depth
explanation of the system's internal workings, allowing for comprehensive comprehension. The fifth
chapter explains and evaluates the confusion matrix resulting from the training of a machine learning model
for multi-gesture classification. Abbreviations are defined when first used. Clear structure and progression
with causal relationships between statements are maintained. This matrix, based on performance metrics,
measures the degree to which the model recognizes Greek Sign Language gestures. The language is formal
and objective, avoiding biased or figurative language. The final chapter of this thesis provides an objective
overview of the integration and use of the gesture recognition system, drawing conclusions from the13
findings. Additionally, potential avenues for future development and improvement are discussed. The
chapter follows a logical progression and maintains a formal, balanced tone throughout. Technical terms
are explained where necessary, and the language is free from grammatical errors, colloquialisms, and filler
words.
In summary, this thesis presents the development of a gesture recognition system for the Greek
Sign Language. The ΑPI of Media Pipe-Hands was utilized to detect the reference points of the palm, and
a data collection and pre-processing process was implemented. After training and applying a neural
network, the system is able to perform real-time recognition of the specific gestures mentioned above. In
addition to interpreting the alphabet of Greek Sign Language, this system also allows for further support of
the mentioned gestures. This project contributes to the development of Computer Vision and Machine
Learning applications through theoretical study, methodical development, creation of a flexible
architecture, and integrated evaluation. It lays sturdy groundwork for enhanced communication between
the deaf/hard of hearing community and others, and it elevates interactions with computers, all while
avoiding the need for cutting-edge computing hardware.