Ανάπτυξη συστήματος αμφίδρομης μετατροπής ήχου - κειμένου για ρομποτικές εφαρμογές
Development of a speech-to-text and text-to-speech system for robotic applications
Keywords
Ρομποτικά συστήματα ; Μετατροπή ήχου σε κείμενο ; Μετατροπή κειμένου σε ήχο ; Αναγνώριση ομιλίας ; Φωνητικές εντολές ; Φωνητικές οδηγίες ; Google Speech-to-Text API ; Αλληλεπίδραση ανθρώπου-υπολογιστήAbstract
Η παρούσα εργασία επικεντρώνεται στην ανάπτυξη ενός συστήματος που επιτρέπει τη μετατροπή του ήχου σε κείμενο και αντίστροφα, με στόχο την εφαρμογή του σε ρομποτικά συστήματα. Η αμφίδρομη μετατροπή είναι απαραίτητη για τη βελτίωση της επικοινωνίας μεταξύ ανθρώπων και ρομπότ, προσφέροντας φυσικό και αποτελεσματικό μέσο αλληλεπίδρασης. Ο κύριος σκοπός της εργασίας είναι η δημιουργία ενός ολοκληρωμένου συστήματος που θα μπορεί να μετατρέπει την ομιλία σε κείμενο (Speech-to-Text, STT), μετατρέπει το κείμενο σε φυσικό ήχο ομιλίας (Text-to-Speech, TTS). Για την υλοποίηση του συστήματος χρησιμοποιήθηκαν σύγχρονες τεχνολογίες και αλγόριθμοι επεξεργασίας φυσικής γλώσσας (NLP) και μηχανικής μάθησης (Machine Learning). Οι βασικές μέθοδοι περιλαμβάνουν Αναγνώριση Ομιλίας (Speech Recognition), χρήση νευρωνικών δικτύων
και αλγορίθμων βαθιάς μάθησης για την ανάλυση και αναγνώριση της ομιλίας και ενσωμάτωση στην προϋπάρχουσα πλατφόρμα αναγνώρισης, όπως το Google Speech to Text API. Σύνθεση Ομιλίας (Speech Synthesis) με την χρήση τεχνικών TTS με
αλγόριθμους μετατροπής κειμένου σε ήχο, όπως οι Tacotron και Wavenet. ενσωμάτωση εργαλείων όπως το Google Text to Speech API για την παραγωγή φυσικού ήχου. Το σύστημα που αναπτύχθηκε δοκιμάστηκε σε διάφορα σενάρια χρήσης σε
ρομποτικές εφαρμογές, όπως εντοπισμός και απάντηση σε φωνητικές εντολές από χρήστες, παροχή φωνητικών οδηγιών και πληροφοριών από το ρομπότ προς τους χρήστες. Τα αποτελέσματα έδειξαν υψηλή ακρίβεια στην αναγνώριση ομιλίας και
ποιότητα στη σύνθεση φωνής, καθιστώντας το σύστημα χρήσιμο για ποικίλες ρομποτικές εφαρμογές. Η ανάπτυξη του συστήματος αμφίδρομης μετατροπής ήχουκειμένου προσφέρει σημαντικά πλεονεκτήματα στην αλληλεπίδραση ανθρώπων και ρομπότ. Με τη συνεχή βελτίωση των αλγορίθμων και τη χρήση εξελιγμένων τεχνικών μηχανικής μάθησης, το σύστημα αυτό μπορεί να συμβάλλει σημαντικά στην εξέλιξη των ρομποτικών τεχνολογιών και στην ενίσχυση της επικοινωνίας σε ποικίλα πεδία εφαρμογών: Βελτίωση της αναγνώρισης ομιλίας σε θορυβώδη περιβάλλοντα, προσαρμογή του συστήματος για υποστήριξη σε πολλές γλώσσες και ενσωμάτωση της συναισθηματικής αναγνώρισης στην ανάλυση ομιλίας για πιο φυσική αλληλεπίδραση. Η παρούσα εργασία αποτελεί μια βάση για περαιτέρω έρευνα και ανάπτυξη στον τομέα των ρομποτικών συστημάτων και της επεξεργασίας φυσικής
γλώσσας, προάγοντας τη συνεργασία ανθρώπων και μηχανών.
Abstract
This work focuses on the development of a system that allows the conversion of sound to text and vice versa, with the aim of applying it to robotic systems. This two-way conversion is necessary to improve the communication between humans
and robots, offering a natural and effective means of interaction. The main purpose of the work is to create an integrated system that will be able to convert speech into text (Speech-to-Text, STT) and text to natural speech sound (Text-to-Speech, TTS). Modern technologies and algorithms of natural language processing (NLP) and machine learning (Machine Learning) were used to implement the system. Key methods include Speech Recognition, by using neural networks and deep learning algorithms for
speech analysis and recognition. Integration with pre-existing recognition platform such as Google Speech to Text API, Speech Synthesis Using TTS techniques with text-to-sound algorithms, such as Tacotron and WaveNet, integrating tools like the Google Text to Speech API, to produce natural sound. The developed system was tested in various usage scenarios in robotic applications, such as: Detecting and responding to voice commands from users, provide voice instructions and information from the robot to users. The results showed high accuracy in speech recognition and quality in voice synthesis, making the
system useful for a variety of robotic applications. The development of two-way audio-totext conversion system offers significant advantages in human-robot interaction. With the continuous improvement of algorithms and the use of advanced machine learning techniques, this system can significantly contribute to the evolution of robotic technologies and to the enhancement of communication in a variety of application fields, improving speech recognition in noisy environments, adapting the system to support multiple languages, and embedding emotional recognition in speech analysis for more natural interaction. This work forms a basis for further research and development in the field of robotic systems and natural language processing, promoting human-machine collaboration.