Show simple item record

Ανάπτυξη συστήματος αμφίδρομης μετατροπής ήχου - κειμένου για ρομποτικές εφαρμογές

dc.contributor.advisorPapakitsos, Evangelos
dc.contributor.authorΛεύκελης, Βασίλειος-Στυλιανός
dc.date.accessioned2024-08-09T10:22:37Z
dc.date.available2024-08-09T10:22:37Z
dc.date.issued2024-08
dc.identifier.urihttps://polynoe.lib.uniwa.gr/xmlui/handle/11400/7330
dc.identifier.urihttp://dx.doi.org/10.26265/polynoe-7162
dc.description.abstractΗ παρούσα εργασία επικεντρώνεται στην ανάπτυξη ενός συστήματος που επιτρέπει τη μετατροπή του ήχου σε κείμενο και αντίστροφα, με στόχο την εφαρμογή του σε ρομποτικά συστήματα. Η αμφίδρομη μετατροπή είναι απαραίτητη για τη βελτίωση της επικοινωνίας μεταξύ ανθρώπων και ρομπότ, προσφέροντας φυσικό και αποτελεσματικό μέσο αλληλεπίδρασης. Ο κύριος σκοπός της εργασίας είναι η δημιουργία ενός ολοκληρωμένου συστήματος που θα μπορεί να μετατρέπει την ομιλία σε κείμενο (Speech-to-Text, STT), μετατρέπει το κείμενο σε φυσικό ήχο ομιλίας (Text-to-Speech, TTS). Για την υλοποίηση του συστήματος χρησιμοποιήθηκαν σύγχρονες τεχνολογίες και αλγόριθμοι επεξεργασίας φυσικής γλώσσας (NLP) και μηχανικής μάθησης (Machine Learning). Οι βασικές μέθοδοι περιλαμβάνουν Αναγνώριση Ομιλίας (Speech Recognition), χρήση νευρωνικών δικτύων και αλγορίθμων βαθιάς μάθησης για την ανάλυση και αναγνώριση της ομιλίας και ενσωμάτωση στην προϋπάρχουσα πλατφόρμα αναγνώρισης, όπως το Google Speech to Text API. Σύνθεση Ομιλίας (Speech Synthesis) με την χρήση τεχνικών TTS με αλγόριθμους μετατροπής κειμένου σε ήχο, όπως οι Tacotron και Wavenet. ενσωμάτωση εργαλείων όπως το Google Text to Speech API για την παραγωγή φυσικού ήχου. Το σύστημα που αναπτύχθηκε δοκιμάστηκε σε διάφορα σενάρια χρήσης σε ρομποτικές εφαρμογές, όπως εντοπισμός και απάντηση σε φωνητικές εντολές από χρήστες, παροχή φωνητικών οδηγιών και πληροφοριών από το ρομπότ προς τους χρήστες. Τα αποτελέσματα έδειξαν υψηλή ακρίβεια στην αναγνώριση ομιλίας και ποιότητα στη σύνθεση φωνής, καθιστώντας το σύστημα χρήσιμο για ποικίλες ρομποτικές εφαρμογές. Η ανάπτυξη του συστήματος αμφίδρομης μετατροπής ήχουκειμένου προσφέρει σημαντικά πλεονεκτήματα στην αλληλεπίδραση ανθρώπων και ρομπότ. Με τη συνεχή βελτίωση των αλγορίθμων και τη χρήση εξελιγμένων τεχνικών μηχανικής μάθησης, το σύστημα αυτό μπορεί να συμβάλλει σημαντικά στην εξέλιξη των ρομποτικών τεχνολογιών και στην ενίσχυση της επικοινωνίας σε ποικίλα πεδία εφαρμογών: Βελτίωση της αναγνώρισης ομιλίας σε θορυβώδη περιβάλλοντα, προσαρμογή του συστήματος για υποστήριξη σε πολλές γλώσσες και ενσωμάτωση της συναισθηματικής αναγνώρισης στην ανάλυση ομιλίας για πιο φυσική αλληλεπίδραση. Η παρούσα εργασία αποτελεί μια βάση για περαιτέρω έρευνα και ανάπτυξη στον τομέα των ρομποτικών συστημάτων και της επεξεργασίας φυσικής γλώσσας, προάγοντας τη συνεργασία ανθρώπων και μηχανών.el
dc.format.extent55el
dc.language.isoelel
dc.publisherΠανεπιστήμιο Δυτικής Αττικήςel
dc.rightsΑναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές*
dc.rightsAttribution-NoDerivatives 4.0 Διεθνές*
dc.rights.urihttp://creativecommons.org/licenses/by-nd/4.0/*
dc.subjectΡομποτικά συστήματαel
dc.subjectΜετατροπή ήχου σε κείμενοel
dc.subjectΜετατροπή κειμένου σε ήχοel
dc.subjectΑναγνώριση ομιλίαςel
dc.subjectΦωνητικές εντολέςel
dc.subjectΦωνητικές οδηγίεςel
dc.subjectGoogle Speech-to-Text APIel
dc.subjectΑλληλεπίδραση ανθρώπου-υπολογιστήel
dc.titleΑνάπτυξη συστήματος αμφίδρομης μετατροπής ήχου - κειμένου για ρομποτικές εφαρμογέςel
dc.title.alternativeDevelopment of a speech-to-text and text-to-speech system for robotic applicationsel
dc.typeΔιπλωματική εργασίαel
dc.contributor.committeeDrosos, Christos
dc.contributor.committeeLaskaris, Nikolaos
dc.contributor.facultyΣχολή Μηχανικώνel
dc.contributor.departmentΤμήμα Μηχανικών Βιομηχανικής Σχεδίασης και Παραγωγήςel
dc.description.abstracttranslatedThis work focuses on the development of a system that allows the conversion of sound to text and vice versa, with the aim of applying it to robotic systems. This two-way conversion is necessary to improve the communication between humans and robots, offering a natural and effective means of interaction. The main purpose of the work is to create an integrated system that will be able to convert speech into text (Speech-to-Text, STT) and text to natural speech sound (Text-to-Speech, TTS). Modern technologies and algorithms of natural language processing (NLP) and machine learning (Machine Learning) were used to implement the system. Key methods include Speech Recognition, by using neural networks and deep learning algorithms for speech analysis and recognition. Integration with pre-existing recognition platform such as Google Speech to Text API, Speech Synthesis Using TTS techniques with text-to-sound algorithms, such as Tacotron and WaveNet, integrating tools like the Google Text to Speech API, to produce natural sound. The developed system was tested in various usage scenarios in robotic applications, such as: Detecting and responding to voice commands from users, provide voice instructions and information from the robot to users. The results showed high accuracy in speech recognition and quality in voice synthesis, making the system useful for a variety of robotic applications. The development of two-way audio-totext conversion system offers significant advantages in human-robot interaction. With the continuous improvement of algorithms and the use of advanced machine learning techniques, this system can significantly contribute to the evolution of robotic technologies and to the enhancement of communication in a variety of application fields, improving speech recognition in noisy environments, adapting the system to support multiple languages, and embedding emotional recognition in speech analysis for more natural interaction. This work forms a basis for further research and development in the field of robotic systems and natural language processing, promoting human-machine collaboration.el


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές
Except where otherwise noted, this item's license is described as
Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές